申请/专利权人:北京百度网讯科技有限公司
申请日:2022-12-12
公开(公告)日:2024-04-02
公开(公告)号:CN115983271B
主分类号:G06F40/295
分类号:G06F40/295;G06F40/30;G06F16/33;G06N3/08;G06N3/0464
优先权:
专利状态码:有效-授权
法律状态:2024.04.02#授权;2023.05.05#实质审查的生效;2023.04.18#公开
摘要:本公开提供了一种命名实体的识别方法和命名实体识别模型的训练方法,涉及人工智能领域,具体涉及自然语言处理和深度学习等技术领域,可应用于知识挖掘和知识图谱构建等场景。命名实体的识别方法的具体实现方案为:根据待识别命名实体的实体类型和待识别文本,获得标记序列;对标记序列进行语义编码,得到实体类型和待识别文本的语义特征;对语义特征进行解码,得到标注矩阵;标注矩阵指示标记序列中的目标标记和语义相邻关系;以及根据标注矩阵,确定待识别文本中属于实体类别的目标命名实体,其中,目标标记为对应目标命名实体的标记;语义相邻关系包括标记序列中对应目标命名实体的任意两个标记之间的相邻关系。
主权项:1.一种命名实体的识别方法,包括:根据待识别命名实体的实体类型和待识别文本,获得标记序列;对标记序列进行语义编码,得到所述实体类型和所述待识别文本的语义特征;对所述语义特征进行解码,得到标注矩阵;所述标注矩阵指示所述标记序列中的目标标记和语义相邻关系;以及根据所述标注矩阵,确定所述待识别文本中属于所述实体类别的目标命名实体,其中,所述目标标记为对应所述目标命名实体的标记;所述语义相邻关系包括所述标记序列中对应所述目标命名实体的任意两个标记之间的相邻关系,其中,所述对所述语义特征进行解码,得到标注矩阵包括:采用嵌入网络对所述语义特征进行至少两个维度的嵌入处理,得到至少两个嵌入特征;所述至少两个维度包括距离维度以及以下维度中的至少一个:字维度、区域维度,所述距离维度的特征为从所述语义特征中提取的所述实体类型和所述待识别文本中所有字两两之间的距离特征;拼接所述至少两个嵌入特征,得到拼接后特征;采用多层感知机对所述拼接后特征进行处理,得到感知后特征;采用空洞卷积网络对所述感知后特征进行处理,得到融合特征;以及对所述融合特征进行解码,得到第二标注矩阵。
全文数据:
权利要求:
百度查询: 北京百度网讯科技有限公司 命名实体的识别方法和命名实体识别模型的训练方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。