买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于字符字形特征的中文命名实体识别方法及系统_成都图奕科技有限公司_202310379164.9 

申请/专利权人:成都图奕科技有限公司

申请日:2023-04-11

公开(公告)日:2024-04-05

公开(公告)号:CN116502641B

主分类号:G06F40/295

分类号:G06F40/295;G06F40/284;G06N3/0442;G06N3/048;G06N3/08

优先权:

专利状态码:有效-授权

法律状态:2024.04.05#授权;2023.08.15#实质审查的生效;2023.07.28#公开

摘要:本发明公开了基于字符字形特征的中文命名实体识别方法及系统,方法包括:获取文本序列中每个字符的字符特征;获取每个字符的五笔编码和四角编码,聚合为字符的字形特征将每个字符的字符特征和字形特征通过门控机制融合为组合字符表示;获取文本序列中每个词汇包含词性信息的上下文表示;利用交叉注意力机制对上下文表示和组合字符表示进行注意力计算;将注意力计算的输出和组合字符表示结合后,作为模型的输入。本发明利用五笔编码和四角编码技术提取字符的形状结构特征,同时使用词性信息学习输入文本的隐式词汇表示,从而更充分地利用了文本序列信息,能够学习到更丰富和复杂的信息,以增强文本序列的特征表示,从而提高了NER的整体性能。

主权项:1.基于字符字形特征的中文命名实体识别方法,其特征在于,包括步骤:S1、获取文本序列中每个字符的字符特征;S2、获取文本序列中每个字符的五笔编码和四角编码,根据字符与五笔特征和四角特征的关联度,将五笔编码和四角编码聚合为字符的字形特征;S3、将每个字符的字符特征和字形特征通过门控机制融合为组合字符表示;S4、获取文本序列中每个词汇包含词性信息的上下文表示;S5、利用交叉注意力机制对上下文表示和组合字符表示进行注意力计算;S6、将注意力计算的输出和组合字符表示结合后,作为中文命名实体标签预测模型的输入,完成中文命名实体的识别;所述将每个字符的字符特征和字形特征通过门控机制融合为组合字符表示,具体包括:S301、计算门控参数gi: 其中,和是可学习参数,是字符特征,bg是偏置项,是字形特征;字形特征采用权重计算的方式进行聚合,包括:对于每个输入的字符xi,首先分别计算出与五笔和四角的关联度tg,tf,接着计算分配给五笔嵌入和四角嵌入的权重pg,pf,计算权重的方式如下: 其中,S是五笔序列嵌入eg和四角序列嵌入ef的集合,是五笔和四角的关联度;S302、将字符特征和字形特征融合,得到组合字符表示 其中,E是一个与具有相同形状的向量,每个位的值都是1;°表示按元素相乘;所述利用交叉注意力机制对上下文表示和组合字符表示进行注意力计算,具体包括:将上下文表示作为键Ks和值Vs,以使上下文表示被用于计算查询与每个上下文词汇之间的相关性,并为每个上下文词汇分配权重;将组合字符表示作为任务相关查询Qc,以使组合字符表示通过注意力机制将其与上下文表示相关联,以获取与当前任务相关的信息;根据下面的公式进行注意力计算: 其中,dk是Ks的维度。

全文数据:

权利要求:

百度查询: 成都图奕科技有限公司 基于字符字形特征的中文命名实体识别方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。