【发明公布】一种基于词汇增强的司法命名实体识别方法_电子科技大学_202410052509.4

导航：龙图腾网> 最新专利技术> 一种基于词汇增强的司法命名实体识别方法_电子科技大学_202410052509.4

申请/专利权人：电子科技大学

申请日：2024-01-15

公开（公告）日：2024-04-12

公开（公告）号：CN117875326A

主分类号：G06F40/295

分类号：G06F40/295;G06F40/30;G06F40/284;G06F40/237;G06N3/0442;G06N3/047;G06N3/082

优先权：

专利状态码：在审-实质审查的生效

法律状态：2024.04.30#实质审查的生效;2024.04.12#公开

摘要：本发明属于自然语言处理技术领域，具体涉及一种基于词汇增强的司法命名实体识别方法。该方法使用司法文书数据集，通过引入基于词汇增强的字词网格结构，实现字词的联合嵌入以及多特征嵌入，能够提取字符在句子中的语义特征，从而融合汉字的字词特征和语义信息，获得更多的信息，进而得到全局最优系列标签。解决了传统中文命名实体识别模型难以迁移到司法领域以及在文本中仅使用字符向量表达存在的局限性。相较于传统的方法，本发明实现字词的联合嵌入以及多特征嵌入，融合汉字的字词特征和语义信息，提高了司法实体识别的有效性和准确性。

主权项：1.一种基于词汇增强的司法命名实体识别方法，其特征在于，包括以下步骤：S1、获取司法文本制作训练数据，具体为：将司法文本进行分词后得到所有可能的分词结果，再根据分词结果制作词汇表D，将构成司法文本中的字符序列C＝{c1,c2,…,cn}和得到的词汇表中的词汇序列共同作为训练数据，定义表示这个词从字符序列C中的第b个字符开始，到第e个字符结束，d表示词汇表D中的一个词汇；S2、构建司法命名实体识别模型，具体为在LatticeLSTM模型的基础上进行改进，包括字词嵌入层、编码层和解码层，其中字词嵌入层先进行字嵌入和词嵌入将训练数据转化为字向量和词向量；字符转化为字向量的方法是，对字符序列C中的任一字符ci，定义其中ec表示字嵌入层的权重矩阵；词语转化为词向量的方法是，对词汇表中任一词汇定义其中d表示匹配由所有词汇构成的词表D中的一个词汇，表示词表中该词汇在句子中的位置从b开始到e结束，ew表示词嵌入表；再将字向量和词向量进行融合得到字词融合向量，融合方法是：其中，表示以字符序列C中的字符ci开头的最短的词；编码层采用双向LSTM进行编码，计算方法是： ci＝ci☉ii+ci-1☉fihi＝oi☉tanhci其中，oi是输出门，ii是输入门，fi是遗忘门，wp和bp都是相应的参数矩阵，⊙表示矩阵中元素相乘；然后对隐藏状态应用注意力机制，实现对隐藏层权重的分配；解码层为CRF层，通过CRF层的计算，对特征向量进行解码处理，具体方法为：先计算每个字符对应的标签得分Ot：Ot＝Woht+bo其中，Wo表示参数矩阵，ht表示输入，bo表示偏置；定义转移矩阵A，A中的元素Aij表示从一个标签i转移到另一个标签j的可能性，字符序列C的得分计算方法为：其中，引入了起点标记y0和终点标记yn+1，y0代表句子的开始标签，而yn+1代表句子的结束标签；整个序列的条件概率计算方法为：其中Yx表示所有可能标注结果；S3、利用训练数据对构建的司法命名实体识别模型进行训练，采用的损失函数为：其中，Yx表示所有可能的标注结果，得到训练好的司法命名实体识别模型；S4、将司法文本输入到训练好的司法命名实体识别模型，得到识别结果，通过下式预测出最有可能的标签序列： y*表示最有可能的标注结果。

全文数据：

权利要求：

百度查询：电子科技大学一种基于词汇增强的司法命名实体识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种高效型苗种植机_海南勤璞园农业科技有限公司_202322496666.8

下一篇：一种尺寸可调节的中药材切片装置_安徽盛林国药饮片有限公司_202322230535.5

相关技术

一种高效型苗种植机_海南勤璞园农业科技有限公司_202322496666.8

一种尺寸可调节的中药材切片装置_安徽盛林国药饮片有限公司_202322230535.5

一种接触器触头机构_杭州玛实迪电器科技有限公司_202322179096.X

一种农牧业通电线卷绕装置_山东恒通智能新材料有限公司_202322431480.4

一种计算机机箱外壳_深圳市丰翼高精密五金有限公司_202322585533.8

电池壳清洗用旋转框架安装槽的限位结构_无锡金杨丸伊电子有限公司_202322328357.X

一种注塑机新型泵罩门板_恩格尔注塑机械(常州)有限公司_202322227242.1

一种玉米种植用病虫害防治装置_黄金双_202322446508.1

一种火车集卡装卸装置_杭州奥拓机电股份有限公司_202322190678.8

一种装配式桥梁用避震结构_浙江天晟建材股份有限公司_202322593564.8

一种旋转式防撞护栏和混凝土护栏的过渡连接结构_浙江飞虹交通设施有限公司_202322419697.3

一种醋酸酐含量检测装置_山东嘉驰新材料股份有限公司_202322220520.0

龙图腾网&IPTOP

【发明公布】一种基于词汇增强的司法命名实体识别方法_电子科技大学_202410052509.4

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务