买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于词汇增强的司法命名实体识别方法_电子科技大学_202410052509.4 

申请/专利权人:电子科技大学

申请日:2024-01-15

公开(公告)日:2024-04-12

公开(公告)号:CN117875326A

主分类号:G06F40/295

分类号:G06F40/295;G06F40/30;G06F40/284;G06F40/237;G06N3/0442;G06N3/047;G06N3/082

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.04.30#实质审查的生效;2024.04.12#公开

摘要:本发明属于自然语言处理技术领域,具体涉及一种基于词汇增强的司法命名实体识别方法。该方法使用司法文书数据集,通过引入基于词汇增强的字词网格结构,实现字词的联合嵌入以及多特征嵌入,能够提取字符在句子中的语义特征,从而融合汉字的字词特征和语义信息,获得更多的信息,进而得到全局最优系列标签。解决了传统中文命名实体识别模型难以迁移到司法领域以及在文本中仅使用字符向量表达存在的局限性。相较于传统的方法,本发明实现字词的联合嵌入以及多特征嵌入,融合汉字的字词特征和语义信息,提高了司法实体识别的有效性和准确性。

主权项:1.一种基于词汇增强的司法命名实体识别方法,其特征在于,包括以下步骤:S1、获取司法文本制作训练数据,具体为:将司法文本进行分词后得到所有可能的分词结果,再根据分词结果制作词汇表D,将构成司法文本中的字符序列C={c1,c2,…,cn}和得到的词汇表中的词汇序列共同作为训练数据,定义表示这个词从字符序列C中的第b个字符开始,到第e个字符结束,d表示词汇表D中的一个词汇;S2、构建司法命名实体识别模型,具体为在LatticeLSTM模型的基础上进行改进,包括字词嵌入层、编码层和解码层,其中字词嵌入层先进行字嵌入和词嵌入将训练数据转化为字向量和词向量;字符转化为字向量的方法是,对字符序列C中的任一字符ci,定义其中ec表示字嵌入层的权重矩阵;词语转化为词向量的方法是,对词汇表中任一词汇定义其中d表示匹配由所有词汇构成的词表D中的一个词汇,表示词表中该词汇在句子中的位置从b开始到e结束,ew表示词嵌入表;再将字向量和词向量进行融合得到字词融合向量,融合方法是: 其中, 表示以字符序列C中的字符ci开头的最短的词;编码层采用双向LSTM进行编码,计算方法是: ci=ci☉ii+ci-1☉fihi=oi☉tanhci其中,oi是输出门,ii是输入门,fi是遗忘门,wp和bp都是相应的参数矩阵,⊙表示矩阵中元素相乘;然后对隐藏状态应用注意力机制,实现对隐藏层权重的分配;解码层为CRF层,通过CRF层的计算,对特征向量进行解码处理,具体方法为:先计算每个字符对应的标签得分Ot:Ot=Woht+bo其中,Wo表示参数矩阵,ht表示输入,bo表示偏置;定义转移矩阵A,A中的元素Aij表示从一个标签i转移到另一个标签j的可能性,字符序列C的得分计算方法为: 其中,引入了起点标记y0和终点标记yn+1,y0代表句子的开始标签,而yn+1代表句子的结束标签;整个序列的条件概率计算方法为: 其中Yx表示所有可能标注结果;S3、利用训练数据对构建的司法命名实体识别模型进行训练,采用的损失函数为: 其中,Yx表示所有可能的标注结果,得到训练好的司法命名实体识别模型;S4、将司法文本输入到训练好的司法命名实体识别模型,得到识别结果,通过下式预测出最有可能的标签序列: y*表示最有可能的标注结果。

全文数据:

权利要求:

百度查询: 电子科技大学 一种基于词汇增强的司法命名实体识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。