买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】融合领域知识和深度学习的领域短文本命名实体识别方法_中国电子科技集团公司第五十四研究所_202311685756.X 

申请/专利权人:中国电子科技集团公司第五十四研究所

申请日:2023-12-11

公开(公告)日:2024-04-12

公开(公告)号:CN117875323A

主分类号:G06F40/295

分类号:G06F40/295;G06F40/194;G06F18/23213;G06N3/0442;G06N3/08;G06N5/022

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.04.30#实质审查的生效;2024.04.12#公开

摘要:本发明公开了融合领域知识和深度学习的领域短文本命名实体识别方法,涉及知识图谱和自然语言处理等领域。本发明包括:对新知识实体进行聚类,使用全局向量词嵌入模型进行词嵌入训练,生成领域命名实体词向量空间及新知识实体的词向量;通过领域命名实体词向量空间生成词向量处理,与新知识实体词向量分别同步输入两个BiLSTM‑CRF网络,结果再一同输出到一个全连接网络,形成双BiLSTM‑CRF‑全连接网络的领域命名实体识别模型;将新领域短文本经分词、生成词向量处理后,与新知识实体词向量输入训练生成的双BiLSTM‑CRF‑全连接网络,输出该领域短文本中命名实体的识别结果。本发明能够准确快捷识别领域短文本中关键命名实体,辅助人员正确理解信息,具有很大的实际应用价值。

主权项:1.融合领域知识和深度学习的领域短文本命名实体识别方法,其特征在于,包括以下步骤:步骤1,从已有的军事领域知识图谱中,选取领域关键知识实体及关键知识实体间的关键实体关系,构建关键知识实体关联矩阵,将领域知识图谱中关键知识实体投影转换成新知识实体,再对新知识实体进行聚类;步骤1的具体方式为:步骤1-1,从军事领域已有的领域知识图谱中,选取领域关键知识实体及关键知识实体间的关键实体关系;步骤1-2,根据知识实体间的实体关系,构建知识实体关联矩阵S,矩阵的元素为两知识实体的关联度Sij,用于表示领域知识图谱中知识实体ei与知识实体ej在知识图谱中关联关系的度值;步骤1-3,按照计算生成知识实体关联转换矩阵W,其中σ默认取1;步骤1-4,按照计算生成对角矩阵D;步骤1-5,按照拉普拉斯矩阵A=D-12WD12,生成知识实体投影转换矩阵A;步骤1-6,将知识实体e,通过投影转换矩阵A,生成新知识实体e’,即e’=Ae;步骤1-7,对每个新知识实体e’,通过该新知识实体与其他新知识实体的关系度,构建新知识实体集合的关联矩阵S’;步骤1-8,利用新知识实体集合的关联矩阵S’计算Ei和Ej,其中,Ei、Ej分别表示与新知识实体ei’、ej’存在关系的所有新知识实体的集合,|Ei|表示集合Ei中各新知识实体度的和,|Ej|表示集合Ej中各新知识实体度的和;步骤1-9,按照计算新知识实体ei’和新知识实体ej’的相似性距离,其中,E表示所有新知识实体集合,|E|表示所有新知识实体度的和,Ei∩Ej为集合Ei与集合Ej中共有新知识实体的集合,|Ei∩Ej|表示集合Ei∩Ej中新知识实体度的和;步骤1-10,基于新知识实体的相似性距离,采用K-均值聚类方法对新知识实体进行聚类计算,得到新知识实体的聚类结果及每个聚类中心所对应的新知识实体ec’,全部新知识实体ec’构成聚簇中心新知识实体集合{ec’};步骤2,收集领域短文本,对其中的命名实体进行识别,然后使用JIEBA分词工具对领域短文本进行分词,并利用停用词词典去除口语词、停用词;使用全局向量词嵌入模型GloVe将处理后的分词结果与新知识实体集合的关联矩阵S’一起进行词嵌入训练,生成领域命名实体词向量空间及新知识实体词向量;步骤3,对于领域短文本中已被识别的命名实体,按照在该领域短文本中的时序关系,使用领域命名实体词向量空间,生成该领域短文本的命名实体词向量集合;步骤4,在新知识实体聚类所得的聚簇中,计算与命名实体词向量最相似的新知识实体;步骤4的具体方式为:步骤4-1,在命名实体词向量集合中顺序选取一个命名实体词向量,计算实体词向量相似性 其中,rm是命名实体词向量,是聚簇中心新知识实体集合{ec’}中的某聚类中心实体ec’对应的新知识实体词向量;步骤4-2,计算实体词向量相似性的最大值若最大值小于阈值则认为未找到相似新知识实体类,跳转到步骤5;若最大值大于阈值则随机选择其中一个最大值所对应的rm,认为该rm隶属于该聚类;步骤4-3,对于步骤4-2确定的聚类,计算命名实体词向量与该聚类中每个新知识实体词向量的相似性srm,re’: 其中,re′是新知识实体词向量;步骤4-4,计算srm,re’的最大值maxsrm,re′,若最大值小于阈值δ,则认为未找到相似新知识实体,跳转到步骤5;若最大值大于阈值δ,则随机选择其中一个最大值所对应的re′,作为该命名实体最相似新知识实体的词向量;步骤4-5,重复步骤4-1至步骤4-4,为命名实体词向量集合中每一个命名实体找到相应的新知识实体向量,并以新知识实体词向量替换集合中对应的命名实体词向量,生成替换知识实体的命名实体词向量集合;步骤5,构建两个BiLSTM-CRF网络,分别为替换知识实体BiLSTM-CRF网络以及识别命名实体BiLSTM-CRF网络,将步骤4-5生成的替换知识实体的命名实体词向量集合输入替换知识实体BiLSTM-CRF网络,将步骤3生成的命名实体词向量集合同步输入识别命名实体BiLSTM-CRF网络;步骤6,将替换知识实体BiLSTM-CRF网络的输出与识别命名实体BiLSTM-CRF网络的输出,输入到一个全连接神经网络;步骤7,批量选取领域短文本,重复步骤3至步骤6,以命名实体识别交叉熵作为损失函数,以学习率为0.1的小批量随机梯度下降作为优化算法,训练替换知识实体BiLSTM-CRF网络、识别命名实体BiLSTM-CRF网络和全连接神经网络的参数,形成最终的融合知识图谱和深度学习的双BiLSTM-CRF-全连接的领域命名实体识别网络模型;步骤8,使用领域命名实体识别网络模型对领域短文本中的命名实体进行识别。

全文数据:

权利要求:

百度查询: 中国电子科技集团公司第五十四研究所 融合领域知识和深度学习的领域短文本命名实体识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。