买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于多信息融合的短文本命名实体消歧方法_北京石油化工学院_202410025322.5 

申请/专利权人:北京石油化工学院

申请日:2024-01-08

公开(公告)日:2024-03-15

公开(公告)号:CN117709349A

主分类号:G06F40/295

分类号:G06F40/295;G06F40/30;G06F40/242;G06N3/0442;G06N3/088

优先权:

专利状态码:在审-公开

法律状态:2024.03.15#公开

摘要:本发明涉及数据处理技术领域,为一种基于多信息融合的短文本命名实体消歧方法,获取包含待消歧实体的原始短文本的向量化表示;处理后得到补充文本的向量化表示;获取实体的类型信息、实体与词项之间的关系信息作为先验知识,利用Bi‑LSTM模型得到先验分布矩阵;输入双语LDA模型中进行训练,将先验分布矩阵作为双语LDA模型的超参数辅助训练;根据预先构建的知识库,双语LDA模型输出待消歧实体与知识库中所有对应实体的匹配概率值;计算精度,并通过调整双语LDA模型的超参数使误差小于预设值,以完成短文本的实体消歧。采用双语LDA模型结合实体类型和实体与词项的关系的先验知识的方法进行短文本的实体消歧,保证实体消歧的准确,提高词义理解的准确性。

主权项:1.一种基于多信息融合的短文本命名实体消歧方法,其特征在于,包括以下步骤:获取包含待消歧实体的原始短文本,得到原始短文本的初始向量化表示,引入BERT模型对所述原始短文本的初始向量化标识进行预处理,得到原始短文本富含语义的向量化表示;将原始短文本通过搜索引擎得到搜索列表的前三条文本拼接作为补充文本,得到补充文本的初始向量化表示,再经过BERT模型处理,得到补充文本富含语义的向量化表示;构建知识库,包含若干实体名称,每个实体名称都有与其对应的描述文本;获取实体的类型信息和实体与词项之间的关系信息,并通过Bi-LSTM模型转化为先验分布矩阵;引入双语LDA模型,将富含语义的向量化表示的原始短文本和补充文本数据输入到双语LDA模型中进行训练,其中,所述先验分布矩阵作为双语LDA模型的超参数辅助训练;根据构建的知识库,结合双语LDA模型,所述双语LDA模型输出待消歧实体与知识库中所有对应实体的匹配概率值;根据双语LDA模型输出的匹配概率值,将其与待消歧实体在知识库中实际对应实体判断是否匹配正确,从而计算双语LDA模型的正确率和误差,并通过调整双语LDA模型的训练迭代次数与超参数使得误差小于预设值,直至完成短文本的实体消歧。

全文数据:

权利要求:

百度查询: 北京石油化工学院 一种基于多信息融合的短文本命名实体消歧方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。