买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】专利中技术短语的自动抽取方法_中国科学技术大学_202010887328.5 

申请/专利权人:中国科学技术大学

申请日:2020-08-28

公开(公告)日:2024-04-02

公开(公告)号:CN112016323B

主分类号:G06F40/289

分类号:G06F40/289;G06F16/36;G06F16/33;G06F16/383;G06F16/35;G06F16/338;G06Q10/0639;G06Q50/18

优先权:

专利状态码:有效-授权

法律状态:2024.04.02#授权;2020.12.18#实质审查的生效;2020.12.01#公开

摘要:本发明公开了一种专利中技术短语的自动抽取方法,包括:根据专利数据库,获得各领域专利文本以及类别信息;利用诸多既有的短语抽取、实体识别工具,构建专利中的候选技术短语的集合;根据技术短语的语义、统计特点,设计相应的评价指标来量化候选短语是技术短语的可能性;根据专利的多层级结构特点,设计了一种多层的抽取模型来抽取技术短语;最后在每个层级上筛选的到技术短语,合并得到专利的技术短语集合,即此专利的技术画像。

主权项:1.一种专利中技术短语的自动抽取方法,其特征在于,包括:通过专利数据库,获得各个领域内的专利文本信息,以及专利之上的技术类别描述信息;对于每一份专利,按照专利文本的结构将专利文本信息分为N个层级,使用无监督方法对每一层级进行候选技术短语的抽取,并利用每一层级的候选技术短语各自构建短语图结构;逐层级的为候选技术短语进行评分,再利用每一候选技术短语的评分结合图结构中候选技术短语之间的关系,迭代计算每个候选技术短语的最终分值,按照最终分值的大小筛选出技术短语,其中上一层级筛选出的技术短语用于当前层级候选技术短语的评分计算,第一层级则结合技术类别描述信息进行候选技术短语的评分计算;综合所有层级选出的技术短语,并进行去重合并,得到一份专利中技术短语;所述为每一候选技术短语评分包括:计算语义评价指标,包括:主题相关度、语义关联性、语义独立性;计算统计评价指标,包括:自身长度、影响范围;将五个数值经过加和与归一化处理后,得到每一候选技术短语评分;主题相关度表示当前候选技术短语与各个主题在语义空间之间的相关度,计算公式为: 其中,θi是当前候选技术短语,Topick为第k个主题;所述主题通过上一层级候选技术短语或者技术类别描述信息通过聚类的方式得到;语义关联性表示不同候选技术短语之间的关联,通过一个阈值T进行剪枝,之后使用节点的度来度量语义相关性,表示为: 其中,I表示示性函数,示性函数的含义是指括号内的条件满足,则取值为1,否则为0;分母的目的是对计算得到的度进行归一化处理;语义独立性用来衡量候选技术短语的独立含义,通过当前候选技术短语和其他候选技术短语之间的语义距离来衡量,表示为: 其中,θi是当前候选技术短语,θj表示其余的候选技术短语;自身长度即计算候选技术短语中单词的个数,定义为: 其中,lenθi表示候选技术短语θi中单词的个数;影响范围是从出现频率的角度评价技术短语,表示为: 其中,I表示示性函数,示性函数的含义是指括号内的条件满足,则取值为1,否则为0;sentencei表示当前层级的文本中的各个句子;所述利用每一候选技术短语的评分结合图结构中候选技术短语之间的关系的方式包括:对于短语图结构G=V,E,V是节点的集合,每一节点Vi即为一个候选技术短语,E为节点的边集合,两个节点Vi与Vj的边权重wji为两个候选技术短语在语义空间的余弦相似度;平均初始化每一节点Vi的初始值:RVi=1N,再利用下式进行值的更新: 其中,N为节点的数量,d为阻尼因子,是一个控制传播效率的超参数;j:Vj→Vi表示所有节点Vi连接的节点Vj;表示与节点Vj相邻的所有边的权重之和;wji表示节点Vi和Vj之间边的权重;WVi为图中节点Vi的权重,也即相应候选技术短语的评分;通过不断迭代,直到所有节点的RVi变化小于设定的截止阈值,或者达到最大迭代轮次后,更新停止,最终得到的RVi即为相应候选技术短语的最终分值。

全文数据:

权利要求:

百度查询: 中国科学技术大学 专利中技术短语的自动抽取方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。