买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于大数据的国防科技热词发现方法及系统_中国人民解放军军事科学院军事科学信息研究中心_201911189154.9 

申请/专利权人:中国人民解放军军事科学院军事科学信息研究中心

申请日:2019-11-28

公开(公告)日:2024-03-22

公开(公告)号:CN111079419B

主分类号:G06F40/242

分类号:G06F40/242;G06F40/284;G06F40/289

优先权:

专利状态码:有效-授权

法律状态:2024.03.22#授权;2020.05.22#实质审查的生效;2020.04.28#公开

摘要:本发明公开了一种基于大数据的国防科技热词发现方法及系统,所述方法包括:将特定时间段内的新闻动态文本,输入预先建立的基于CRF的中文国防科技术语抽取模型,输出国防科技热词候选集合;通过牛顿冷切法对所述国防科技热词候选集合中的国防科技术语进行热度排序,输出国防科技热词集合;将国防科技热词集合输入预先建立的国防科技热词分类模型,输出国防科技热词类别信息。本发明综合运用术语抽取、热词排序、实体分类等技术,首次提出了一种面向国防科技领域的热词发现方法,结果表明,该方法可以有效地挖掘出中文动态新闻出现的国防科技热词,有助于研究人员及时跟踪把握国防科技领域最新的热点和重点知识线索。

主权项:1.一种基于大数据的国防科技热词发现方法,所述方法包括:将特定时间段内的新闻动态文本,输入预先建立的基于CRF的中文国防科技术语抽取模型,输出国防科技热词候选集合;通过牛顿冷切法对所述国防科技热词候选集合中的国防科技术语进行热度排序,输出国防科技热词集合;将国防科技热词集合输入预先建立的国防科技热词分类模型,输出国防科技热词类别信息;所述通过牛顿冷切法对所述国防科技热词候选集合中的国防科技术语进行热度排序,输出国防科技热词集合,具体包括:将热词排名模拟成一个自然冷却的过程,利用物理学定律,建立“温度”与“时间”之间的函数关系,构建一个“指数式衰减”的过程,即:当前时期词频=历史词频*exp-冷却系数*时间差,定义冷却系数为: 其中,w为一条术语;计算国防科技热词候选集合中的每个术语的冷却系数,按照降序排列根据冷却系数对国防科技热词候选集合中的术语进行热度排序;取排序后的前N个术语或者冷切系数大于某个阈值的所有术语,组成国防科技热词集合;国防科技热词分类模型包括:三个并行的神经网络、串联单元和softmax函数;所述三个并行的神经网络包括:上文多层感知器、递归神经网络和下文多层感知器,用于对上文中的词、当前词和下文中的词分别进行向量表示;所述串联单元,用于将上述的上文、热词本身、下文的向量化表示进行串联;所述softmax函数,用于计算在各个实体类别的概率分布,得到该词的实体类别预测;国防科技热词分类模型的训练步骤,具体包括:利用国防科技词表及其类别信息,在国防科技动态新闻库检索并自动标注,形成训练语料库;对训练语料库的每个语料进行分词预处理;通过词嵌入向量词典,将上文中的词、当前词和下文中的词分别表示为向量[c-s...c-1]、[w1...wn]和[c1...cs];其中s表示窗口大小,n表示热词的长度;将向量[c-s...c-1]、[w1...wn]和[c1...cs]分别输入多层感知器、递归神经网络、多层感知器进行特征学习,从而获取上文向量化表示、热词本身向量化表示和下文的向量化表示;将上述的上文向量化表示、热词本身向量化表示和下文向量化表示通过串联单元进行串联,输入softmax函数,输出各个实体类别的概率分布,得到该词的实体类别预测;根据该词的标注的类别信息和实体类别预测,利用梯度下降法对模型的参数进行调整,经过反复迭代,参数收敛,模型训练完毕。

全文数据:

权利要求:

百度查询: 中国人民解放军军事科学院军事科学信息研究中心 一种基于大数据的国防科技热词发现方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。