买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种科技文献类目自动映射模型训练与预测方法_江西师范大学_202410132324.4 

申请/专利权人:江西师范大学

申请日:2024-01-31

公开(公告)日:2024-04-30

公开(公告)号:CN117688945B

主分类号:G06F40/30

分类号:G06F40/30;G06N3/0442;G06N3/045;G06N3/084;G06N3/09

优先权:

专利状态码:有效-授权

法律状态:2024.04.30#授权;2024.03.29#实质审查的生效;2024.03.12#公开

摘要:本发明公开一种科技文献类目自动映射模型训练与预测方法,训练方法步骤为:构造IPC类目与高关联CLC类目数据集作为训练集;将训练集内样本输入预训练语言模型中,获取语义表示向量;使用点积注意力计算语义表示向量获得交互表示向量;将语义表示向量和交互表示向量进行融合输出增强表示向量;将增强表示向量进行池化后输入至前馈神经网络计算概率,将最大概率所在的类别作为预测类别;通过最小化在训练集上的交叉熵损失以得到训练后的IPC类目与高关联CLC类目自动映射模型。本发明的有益效果是:所构建的训练集和IPC类目与高关联CLC类目自动映射模型解决了实际应用场景中IPC类目与高关联CLC类目难以准确建立映射的问题。

主权项:1.一种科技文献类目自动映射模型训练方法,基于IPC类目与高关联的CLC类目自动映射模型训练,其特征在于:步骤如下:步骤S1,构造IPC类目与高关联CLC类目数据集作为训练集,对训练集进行规范化处理,获得规范化处理后的训练集;其中训练集中每个样本由IPC类目描述文本、CLC类目描述文本和IPC类目描述文本与CLC类目描述文本是否互为映射的真实类别标签组成,IPC类目描述文本和CLC类目描述文本均是类目层级文本之间用分号连接形成的一条句子;步骤S2,将处理后的训练集内每个样本的IPC类目描述文本和CLC类目描述文本分别输入预训练语言模型BERT中,获取语义表示向量,分为IPC类目描述文本语义表示向量和CLC类目描述文本语义表示向量;步骤S3,使用点积注意力计算步骤S2中IPC类目描述文本语义表示向量和CLC类目描述文本语义表示向量的注意力矩阵,获得交互表示向量;步骤S4,将步骤S2中语义表示向量和步骤S3中交互表示向量进行融合,依次输入前馈神经网络和双向长短期记忆网络,输出增强表示向量;步骤S5,将步骤S4的增强表示向量分别进行平均池化和最大池化提取类目描述文本的深层语义特征,将池化后的增强表示向量拼接后输入三层前馈神经网络,获得在存在映射关系类别上的概率与不存在映射关系类别上的概率,并将存在映射关系与不存在映射关系中最大概率所在的类别作为预测类别;步骤S6,根据步骤S5中在存在映射关系类别上的概率与不存在映射关系类别上的概率和步骤S1中训练集上IPC类目描述文本与CLC类目描述文本是否互为映射的真实类别标签,通过最小化在训练集上的交叉熵损失来优化IPC类目与高关联CLC类目自动映射模型的参数,以得到训练后的IPC类目与高关联CLC类目自动映射模型;步骤S1中构造IPC类目与高关联CLC类目数据集,具体为:步骤S11,获取公开的IPC类目与CLC类目完全映射的数据集,数据集中每个样本是由一个IPC类目描述文本和与IPC类目描述文本存在映射关系的CLC类目描述文本组成,即只存在正样本;步骤S12,步骤S11中数据集拆分为IPC类目描述文本与CLC类目描述文本,通过回溯获取每个IPC类目的类目号和对应的一个或者多个CLC类目的类目号关系字典;步骤S13,对具有相同前缀的IPC类目号进行分组,获得分组字典;步骤S14,遍历所有的IPC类目,对步骤S13的分组字典中对应的CLC类目进行过滤,通过判断条件,确立与步骤S12中存在映射关系的IPC类目号高度相似的CLC类目号;高度相似的CLC类目号对应的类目描述文本与步骤S12中IPC类目描述文本不存在映射关系,即获得负样本;步骤S15,组合负样本和公开的IPC类目与CLC类目完全映射的数据集,构成IPC类目与高关联的CLC类目数据集;步骤S2中处理后的训练集内每个样本的IPC类目描述文本和CLC类目描述文本分别输入预训练语言模型BERT中,获取语义表示向量,具体为:给定训练集中一个样本d=sipc,sclc,y,其中d表示一个训练样本,Sipc表示IPC类目描述文本,Sclc表示CLC类目描述文本,y表示IPC类目与CLC类目是否存在映射关系,y值为0或1;将IPC类目描述文本Sipc和CLC类目描述文本Sclc使用BPE子词切分方法进行子词切分,分别得到包含n个子词和m个子词的子词序列: ; ;其中,表示IPC类目描述文本切分后的第1个子词,表示IPC类目描述文本切分后的第2个子词,表示IPC类目描述文本切分后的第n个子词,表示CLC类目描述文本切分后的第1个子词,表示CLC类目描述文本切分后的第2个子词,表示CLC类目描述文本切分后的第m个子词;n和m分别指IPC类目描述文本和CLC类目描述文本子词切分后包含的子词个数;将类目描述文本切分后的子词序列依次输入预训练语言模型BERT中,获得每个子词的语义表示向量,见公式(1)和公式(2): (1); (2);其中,vipc和vclc分别表示IPC类目描述文本和CLC类目描述文本的语义表示向量,、、表示IPC类目描述文本第1个子词、第2个子词和第n个子词输入预训练语言模型BERT获得的输出向量;、、表示CLC类目描述文本第1个子词、第2个子词和第m个子词输入预训练语言模型BERT获得的输出向量;BERT•表示预训练语言模型BERT,TE•表示查询嵌入表得到对应的词向量,SE•表示片段的嵌入向量,PE•表示位置的嵌入向量,表示IPC类目描述文本切分后的第i个子词,表示CLC类目描述文本切分后的第i个子词;步骤S3中使用点积注意力计算步骤S2中IPC类目描述文本语义表示向量和CLC类目描述文本语义表示向量的注意力矩阵,以获得交互表示向量;见公式(3)、公式(4)和公式(5)所示; (3); (4); (5);其中,e表示注意力矩阵,T表示矩阵转置操作,softmax表示激活函数,表示融合CLC类目语义信息的IPC类目交互表示向量,表示融合IPC类目语义信息的CLC类目交互表示向量;步骤S4中将步骤S2中语义表示向量和步骤S3中交互表示向量进行融合,依次输入前馈神经网络和双向长短期记忆网络,输出增强表示向量;进行增强表示见公式(6)、公式(7)、公式(8)和公式(9)所示; (6); (7); (8); (9);其中,mipc和mclc分别表示IPC类目描述文本和CLC类目描述文本融合后的表示向量,符号是向量拼接操作,符号-为向量间的减法运算,⊙为向量对应元素相乘,和分别表示IPC类目描述文本和CLC类目描述文本增强表示向量,FFN·表示前馈神经网络,Bi-LSTM·表示双向长短期记忆网络;步骤S5中获得在存在映射关系类别上的概率与不存在映射关系类别上的概率,并将存在映射关系与不存在映射关系中最大概率所在的类别作为预测类别,见公式(10)、公式(11)、公式(12)和公式(13)所示; (10); (11); (12); (13);其中,和分别表示IPC类目描述文本平均池化后的表示向量和最大池化后的表示向量,和分别表示CLC类目描述文本平均池化后的表示向量和最大池化后的表示向量,Bi-Pooling表示平均池化和最大池化即双池化,符号v表示所有池化后向量的拼接,描述IPC类目和CLC类目之间的映射关系,p表示在存在映射关系类别上的概率与不存在映射关系类别上的概率向量,Classifier表示三层前馈神经网络组成的分类器。

全文数据:

权利要求:

百度查询: 江西师范大学 一种科技文献类目自动映射模型训练与预测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。