买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】多特征融合的英文科技文献关键词提取方法_毕开龙_202210725706.9 

申请/专利权人:毕开龙

申请日:2022-06-24

公开(公告)日:2022-10-21

公开(公告)号:CN115221871A

主分类号:G06F40/284

分类号:G06F40/284;G06F40/216;G06F40/242;G06F16/31;G06F16/35;G06N3/04;G06N3/08

优先权:

专利状态码:在审-实质审查的生效

法律状态:2022.11.11#实质审查的生效;2022.10.21#公开

摘要:本申请多特征融合的英文科技文献关键词提取方法,创造性的提出不再选取备选词,而是将关键词提取过程当作对关键词主题序列标示的过程,采用深度网络学习模型进行有监督的序列标示,模型针对科技文献特征,对语料中的文本进行多特征分词,将文本切分成单词集合,对所有的单词进行特征主题处理,通过标示好关键词位置标示文件对这些单词做序列标示处理,将词和特征都表示成向量的形式拼接起来作为输入,通过将单词的标示结果也以向量的形式传递给深度网络学习模型中进行训练,采用训练完成的模型来进行关键词抽取,英文科技文献关键词提取效率和精度大幅提高,并对模型的提取结果实时评估,不断修正后关键词提取的效果更好。

主权项:1.多特征融合的英文科技文献关键词提取方法,其特征在于,将关键词提取过程转化为对关键词主题序列标示过程,模型训练以单词为输入单元,采用深度网络学习模型进行有监督的序列标示;第一,将关键词提取转化为序列识别任务处理,采用基于二分类的PN序列标示方法,将关键词提取任务作为对单词二分类的序列标示,解决预测结果中碎片化关键词问题;第二,通过解析标示结果中的关键词集合,融合特征设置四个关键特征用于模型的训练;一是基于专业性关键词和专有名词对于它所存在文本的意义,采用语料库中标示结果文件中标示出的关键词以及从Web上抓取的文献关键词共同组成了先验科技词典特征STD;二是基于科技文献关键词是名词或者动词概率极大,采用特征词性特征FPOS;三是基于词的TF-IDF值对于词在语料库中区分分档的重要性,修改词的TF-IDF赋能特征值作为特征;四是基于解析关键词的书写格式中全大写的词语是关键词,30%的首字母大写的词语是关键词,文本采用书写格式C作为第四个特征;第三,将词、特征标示以及结果标示转化为数学表示,首先采用开源训练完毕的词向量模型GoogleNews300模型,将文本中的词转化为300维的向量特征表示,再针对词的特征格式,自定义表示方式将特征转化为向量特征表示,最后,用自定义的方式,将结果标示转化为向量特征表示;第四,对于文本的特征处理,先采用nltk工具包对文本进行多特征分词,然后采用文本对应的结果标示文件,对文本的多特征分词结果进行结果标示,再然后对文本的多特征分词结果的四个特征依次进行标示,最后将词本身、以及词的特征标示和词的结果标示依次都转化为向量特征表示;第五,采用词向量和特征向量聚合作为深度网络学习模型的训练输入,结果向量作为目标结果也传输到深度网络学习模型中进行模型训练,采用深度网络学习模型实现关键词提取;第六,对模型的提取结果实时评估修正,采用Precision、Recall和F1-score三个标准综合评估系统的预测效果,基于三种评估标准传统的计算方法对结果进行评估,对模型的提取结果实时评估修正。

全文数据:

权利要求:

百度查询: 毕开龙 多特征融合的英文科技文献关键词提取方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。