买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于大数据的细粒度商品命名实体识别方法_芽米科技(广州)有限公司_202211260276.4 

申请/专利权人:芽米科技(广州)有限公司

申请日:2022-10-14

公开(公告)日:2024-04-02

公开(公告)号:CN115422939B

主分类号:G06F40/295

分类号:G06F40/295;G06F16/35;G06N3/0464;G06N3/0455;G06F18/25;G06N3/048

优先权:

专利状态码:有效-授权

法律状态:2024.04.02#授权;2023.11.21#专利申请权的转移;2022.12.20#实质审查的生效;2022.12.02#公开

摘要:本发明属于自然语言处理技术领域,具体涉及一种基于大数据的细粒度商品命名实体识别方法,包括:采用无标注的商品数据S对预训练NEZHA模型进行增量训练,得到继续预训练模型M;构建GPNER模型包括文本处理层、编码层、特征融合层、卷积层、实体边界层、实体分类层;GPNER模型使用特征融合层融入词组信息,增强实体识别的准确率;采用实体边界层和实体分类层多任务的方式对模型参数进行调优。本发明不仅使用了无标注数据对预训练模型NEZHA模型进行了继续预训练,能模型更加适应垂直领域,同时GPNER模型利用了文本长度、词汇信息等知识融入到数据,使模型更加精准的识别到实体边界和辨别实体的种类。

主权项:1.一种基于大数据的细粒度商品命名实体识别方法,其特征在于,包括以下步骤:S1:获取有标注的商品信息数据和无标注的商品信息数据,根据商品数据的标注信息将获取的商品数据划分为无标注商品数据集和已标注商品数据集;S2:将无标注商品数据集中的商品数据输入NEZHA模型进行增量训练,得到预训练模型M;对无标注商品数据集使用动态遮蔽策略,将无标注商品数据集复制五份,将复制出的数据集中的文本数据输入NEZHA模型进行数据迭代,字词有50%的概率会被选中,当一个字被选中的同时,策略选取与这个字左右相关的n个词进行遮蔽,选中的字词中有80%会使用[MASK]进行遮蔽,10%是随机挑选一个词来代替[MASK],10%的概率会保持不变,得到新的遮蔽文本,重复上述过程,直到NEZHA模型不再生成新的遮蔽文本,得到当前预训练模型M;S3:建立GPNER模型,所述GPNER模型包括:文本处理层、编码层、特征融合层、卷积层、实体边界层、实体分类层;S4:将待进行实体命名识别的商品文本数据输入文本处理层,融合文本长度和文本中的实体个数信息;S5:编码层对文本中的实体个数采用[Mask]进行掩盖,并通过预训练模型M进行编码,得到文本的隐藏层状态向量,并在隐藏层状态向量的每个词位置上分别加上[CLS]的类别向量信息,得到词语向量表征hlast;S6:特征融合层将已标注商品数据集中的商品数据文本的词组信息融入词语向量表征hlast,得到特征融合向量hmerge;特征融合层根据已标注商品数据集的标注信息的词组构建字典,按照词组的字典大小初始化一个200维的词向量,对于每一个输入字符,使用字典匹配该字符作为B开始、I中间、E结束三种位置类型对应的词,根据匹配到的词语,在初始化的200维词向量中查找得到对应的匹配词语向量hgaz,针对BIE三个位置,构建三个不同的图神经网络GAT1、GAT2、GAT3,B开始位置的词向量进入GAT1网络,提取当前开始位置的词组与它前后开始位置词组之间的关系,得到GAT1的邻接矩阵,I中间位置的词向量进入GAT2网络,捕捉当前词组字符之间的关系,得到GAT2的邻接矩阵,E结束位置的词向量进入GAT3网络,捕捉结束词组之间以及当前结束词组与开头结尾字符之间的关系,得到GAT3的邻接矩阵,将匹配的词语向量hgaz与词语向量表征hlast进行拼接得到拼接向量通过拼接与三个网络的邻接矩阵计算邻接矩阵中节点与节点之间的重要性系数得到重要性系数矩阵α,再将重要性系数矩阵中的重要性系数与相乘得到三个神经网络的输出,将三个图神经网络GAT1、GAT2、GAT3的输出与词语向量表征hlast进行加权融合,得到特征融合向量hmerge;S7:将特征融合向量hmerge输入卷积层的三层卷积网络,根据感受野rn*rn学习不同rn级别的片段信息来获取商品标题实体内部的关联特征,并将每一层的关联特征与特征融合向量hmerge进行拼接,得到商品的词语向量hcnn;S8:实体边界层采用GlobalPointer解码方法将商品的词语向量hcnn线性变换为两个序列向量qα、kα,根据序列向量qα、kα利用实体分数计算函数计算文本中每一个字符的实体分数sαi,j,当sαi,j>0时,句子文本[i,j]为实体片段,得到商品实体边界i和j;S9:实体分类层挑选文本中实体分数大于0的位置上的词语向量hcnn通过全连接层进行m类分类,得到商品实体的种类。

全文数据:

权利要求:

百度查询: 芽米科技(广州)有限公司 一种基于大数据的细粒度商品命名实体识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。