申请/专利权人:北京百度网讯科技有限公司
申请日:2020-01-15
公开(公告)日:2024-04-12
公开(公告)号:CN111274815B
主分类号:G06F40/295
分类号:G06F40/295;G06F40/284;G06N3/0455;G06N3/08
优先权:
专利状态码:有效-授权
法律状态:2024.04.12#授权;2020.07.07#实质审查的生效;2020.06.12#公开
摘要:本公开涉及知识图谱领域。本公开的实施例公开了用于挖掘文本中的实体关注点的方法和装置。该方法包括:对输入文本进行字词特征提取;将提取出的字词特征输入至文本编码网络进行编码,得到输入文本的编码序列;利用核心实体标注网络对输入文本的编码序列进行处理,预测出输入文本中的核心实体的位置;基于输入文本中的核心实体的位置,从输入文本的编码序列中提取出输入文本中的核心实体对应的子序列;基于输入文本的编码序列以及输入文本中的核心实体对应的子序列,利用关注点标注网络预测出输入文本中的核心实体对应的关注点的位置。该方法实现了文本中实体关注点的精准提取。
主权项:1.一种用于挖掘文本中的实体关注点的方法,包括:对输入文本进行字词特征提取;将提取出的字词特征输入至文本编码网络进行编码,得到输入文本的编码序列;利用核心实体标注网络对所述输入文本的编码序列进行处理,预测出所述输入文本中的核心实体的位置;基于所述输入文本中的核心实体的位置,从所述输入文本的编码序列中提取出所述输入文本中的核心实体对应的子序列;基于所述输入文本的编码序列以及所述输入文本中的核心实体对应的子序列,利用关注点标注网络预测出所述输入文本中的核心实体对应的关注点的位置;所述输入文本包括:核心实体和对应的关注点的标注信息;所述方法还包括:根据所述输入文本的核心实体和对应的关注点的标注信息,确定所述输入文本的核心实体和对应的关注点的位置的预测误差,采用反向传播法迭代调整用于标注核心实体关注点的模型中的参数,以获得训练完成的用于标注核心实体关注点的模型,其中,所述用于标注核心实体关注点的模型包括所述文本编码网络、所述核心实体标注网络以及所述关注点标注网络;所述方法还包括:基于所述输入文本中的核心实体和对应的关注点的标注信息提取出核心实体与对应的关注点的相对位置特征并编码得到相对位置特征序列;所述基于所述输入文本的编码序列以及所述输入文本中的核心实体对应的子序列,利用关注点标注网络预测出所述输入文本中的核心实体对应的关注点的位置,包括:获取基于所述核心实体的关注点知识库构建的所述核心实体的关注点先验特征;将对所述输入文本中的核心实体对应的子序列进行编码的结果与所述相对位置特征序列拼接得到所述输入文本中的核心实体的编码序列;基于所述输入文本的编码序列、所述核心实体的关注点先验特征、以及所述输入文本中的核心实体对应的编码序列生成所述输入文本的第二关注点特征,将所述输入文本的第二关注点特征输入至所述关注点标注网络,预测出由所述核心实体标注网络预测出的核心实体对应的关注点的位置。
全文数据:
权利要求:
百度查询: 北京百度网讯科技有限公司 用于挖掘文本中的实体关注点的方法和装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。