【发明授权】一种科技文献类目自动映射模型训练与预测方法_江西师范大学_202410132324.4

导航：龙图腾网> 最新专利技术> 一种科技文献类目自动映射模型训练与预测方法_江西师范大学_202410132324.4

申请/专利权人：江西师范大学

申请日：2024-01-31

公开（公告）日：2024-04-30

公开（公告）号：CN117688945B

主分类号：G06F40/30

分类号：G06F40/30;G06N3/0442;G06N3/045;G06N3/084;G06N3/09

优先权：

专利状态码：有效-授权

法律状态：2024.04.30#授权;2024.03.29#实质审查的生效;2024.03.12#公开

摘要：本发明公开一种科技文献类目自动映射模型训练与预测方法，训练方法步骤为：构造IPC类目与高关联CLC类目数据集作为训练集；将训练集内样本输入预训练语言模型中，获取语义表示向量；使用点积注意力计算语义表示向量获得交互表示向量；将语义表示向量和交互表示向量进行融合输出增强表示向量；将增强表示向量进行池化后输入至前馈神经网络计算概率，将最大概率所在的类别作为预测类别；通过最小化在训练集上的交叉熵损失以得到训练后的IPC类目与高关联CLC类目自动映射模型。本发明的有益效果是：所构建的训练集和IPC类目与高关联CLC类目自动映射模型解决了实际应用场景中IPC类目与高关联CLC类目难以准确建立映射的问题。

主权项：1.一种科技文献类目自动映射模型训练方法，基于IPC类目与高关联的CLC类目自动映射模型训练，其特征在于：步骤如下：步骤S1，构造IPC类目与高关联CLC类目数据集作为训练集，对训练集进行规范化处理，获得规范化处理后的训练集；其中训练集中每个样本由IPC类目描述文本、CLC类目描述文本和IPC类目描述文本与CLC类目描述文本是否互为映射的真实类别标签组成，IPC类目描述文本和CLC类目描述文本均是类目层级文本之间用分号连接形成的一条句子；步骤S2，将处理后的训练集内每个样本的IPC类目描述文本和CLC类目描述文本分别输入预训练语言模型BERT中，获取语义表示向量，分为IPC类目描述文本语义表示向量和CLC类目描述文本语义表示向量；步骤S3，使用点积注意力计算步骤S2中IPC类目描述文本语义表示向量和CLC类目描述文本语义表示向量的注意力矩阵，获得交互表示向量；步骤S4，将步骤S2中语义表示向量和步骤S3中交互表示向量进行融合，依次输入前馈神经网络和双向长短期记忆网络，输出增强表示向量；步骤S5，将步骤S4的增强表示向量分别进行平均池化和最大池化提取类目描述文本的深层语义特征，将池化后的增强表示向量拼接后输入三层前馈神经网络，获得在存在映射关系类别上的概率与不存在映射关系类别上的概率，并将存在映射关系与不存在映射关系中最大概率所在的类别作为预测类别；步骤S6，根据步骤S5中在存在映射关系类别上的概率与不存在映射关系类别上的概率和步骤S1中训练集上IPC类目描述文本与CLC类目描述文本是否互为映射的真实类别标签，通过最小化在训练集上的交叉熵损失来优化IPC类目与高关联CLC类目自动映射模型的参数，以得到训练后的IPC类目与高关联CLC类目自动映射模型；步骤S1中构造IPC类目与高关联CLC类目数据集，具体为：步骤S11，获取公开的IPC类目与CLC类目完全映射的数据集，数据集中每个样本是由一个IPC类目描述文本和与IPC类目描述文本存在映射关系的CLC类目描述文本组成，即只存在正样本；步骤S12，步骤S11中数据集拆分为IPC类目描述文本与CLC类目描述文本，通过回溯获取每个IPC类目的类目号和对应的一个或者多个CLC类目的类目号关系字典；步骤S13，对具有相同前缀的IPC类目号进行分组，获得分组字典；步骤S14，遍历所有的IPC类目，对步骤S13的分组字典中对应的CLC类目进行过滤，通过判断条件，确立与步骤S12中存在映射关系的IPC类目号高度相似的CLC类目号；高度相似的CLC类目号对应的类目描述文本与步骤S12中IPC类目描述文本不存在映射关系，即获得负样本；步骤S15，组合负样本和公开的IPC类目与CLC类目完全映射的数据集，构成IPC类目与高关联的CLC类目数据集；步骤S2中处理后的训练集内每个样本的IPC类目描述文本和CLC类目描述文本分别输入预训练语言模型BERT中，获取语义表示向量，具体为：给定训练集中一个样本d=sipc,sclc,y，其中d表示一个训练样本，Sipc表示IPC类目描述文本，Sclc表示CLC类目描述文本，y表示IPC类目与CLC类目是否存在映射关系，y值为0或1；将IPC类目描述文本Sipc和CLC类目描述文本Sclc使用BPE子词切分方法进行子词切分，分别得到包含n个子词和m个子词的子词序列：；；其中，表示IPC类目描述文本切分后的第1个子词，表示IPC类目描述文本切分后的第2个子词，表示IPC类目描述文本切分后的第n个子词，表示CLC类目描述文本切分后的第1个子词，表示CLC类目描述文本切分后的第2个子词，表示CLC类目描述文本切分后的第m个子词；n和m分别指IPC类目描述文本和CLC类目描述文本子词切分后包含的子词个数；将类目描述文本切分后的子词序列依次输入预训练语言模型BERT中，获得每个子词的语义表示向量，见公式（1）和公式（2）：（1）；（2）；其中，vipc和vclc分别表示IPC类目描述文本和CLC类目描述文本的语义表示向量，、、表示IPC类目描述文本第1个子词、第2个子词和第n个子词输入预训练语言模型BERT获得的输出向量；、、表示CLC类目描述文本第1个子词、第2个子词和第m个子词输入预训练语言模型BERT获得的输出向量；BERT•表示预训练语言模型BERT，TE•表示查询嵌入表得到对应的词向量，SE•表示片段的嵌入向量，PE•表示位置的嵌入向量，表示IPC类目描述文本切分后的第i个子词，表示CLC类目描述文本切分后的第i个子词；步骤S3中使用点积注意力计算步骤S2中IPC类目描述文本语义表示向量和CLC类目描述文本语义表示向量的注意力矩阵，以获得交互表示向量；见公式（3）、公式（4）和公式（5）所示；（3）；（4）；（5）；其中，e表示注意力矩阵，T表示矩阵转置操作，softmax表示激活函数，表示融合CLC类目语义信息的IPC类目交互表示向量，表示融合IPC类目语义信息的CLC类目交互表示向量；步骤S4中将步骤S2中语义表示向量和步骤S3中交互表示向量进行融合，依次输入前馈神经网络和双向长短期记忆网络，输出增强表示向量；进行增强表示见公式（6）、公式（7）、公式（8）和公式（9）所示；（6）；（7）；（8）；（9）；其中，mipc和mclc分别表示IPC类目描述文本和CLC类目描述文本融合后的表示向量，符号是向量拼接操作，符号-为向量间的减法运算，⊙为向量对应元素相乘，和分别表示IPC类目描述文本和CLC类目描述文本增强表示向量，FFN·表示前馈神经网络，Bi-LSTM·表示双向长短期记忆网络；步骤S5中获得在存在映射关系类别上的概率与不存在映射关系类别上的概率，并将存在映射关系与不存在映射关系中最大概率所在的类别作为预测类别，见公式（10）、公式（11）、公式（12）和公式（13）所示；（10）；（11）；（12）；（13）；其中，和分别表示IPC类目描述文本平均池化后的表示向量和最大池化后的表示向量，和分别表示CLC类目描述文本平均池化后的表示向量和最大池化后的表示向量，Bi-Pooling表示平均池化和最大池化即双池化，符号v表示所有池化后向量的拼接，描述IPC类目和CLC类目之间的映射关系，p表示在存在映射关系类别上的概率与不存在映射关系类别上的概率向量，Classifier表示三层前馈神经网络组成的分类器。

全文数据：

权利要求：

百度查询：江西师范大学一种科技文献类目自动映射模型训练与预测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：供电系统、功率变换器以及功率变换电路的控制方法_华为数字能源技术有限公司_202410139301.6

下一篇：一种探测烟雾粒度及浓度的方法_烟台创为新能源科技股份有限公司_202410159903.8

相关技术

供电系统、功率变换器以及功率变换电路的控制方法_华为数字能源技术有限公司_202410139301.6

一种探测烟雾粒度及浓度的方法_烟台创为新能源科技股份有限公司_202410159903.8

电池模组和电池包_浙江晶科储能有限公司_202410338036.4

一种差分解耦双螺线气敏间隙传感元件及其制备方法_中南大学_202410106028.7

一种用于降解餐厨垃圾的诱变菌株的复配及其应用_北京林业大学_202410173755.5

一种矿井提升机防止跑车的控制方法与装置_洛阳九亿重工集团有限公司_202410421104.3

一种脑膜炎球菌发酵培养基及其制备方法和应用_成大生物(本溪)有限公司_202410343870.2

一种中心静脉压手动测量装置_中山大学肿瘤防治中心(中山大学附属肿瘤医院、中山大学肿瘤研究所)_202410152192.1

用于超声速进发直连风洞试验的发动机台架及设计方法_中国空气动力研究与发展中心高速空气动力研究所_202410420425.1

热解油提质为BTEX的两级催化方法_沙特阿拉伯石油公司_202280065181.9

网站类别的识别方法及装置、设备、存储介质_中国移动通信集团有限公司_202311640121.8

锂电池管理单元及管理方法_深圳市车电网络有限公司_202410101072.9

映射相关技术

基于动态映射策略的负载均衡方法及装置_中国工商银行股份有限公司_202410153181.5

轻量化粗粒度CGRA布局映射方法以及装置_北京航空航天大学_202410253709.6

资源映射方法、装置、设备及存储介质_OPPO广东移动通信有限公司_202080103386.2

映射构建方法、装置及电子设备_腾讯科技(深圳)有限公司_202410303698.8

用于相控阵天线的通信性能映射_维尔塞特公司_202280056549.5

用于区块链地址映射的系统和方法_创新先进技术有限公司_201980004098.9

基于属性约简的数据映射方法、装置、电子设备及介质_广东电网有限责任公司广州供电局_202410163715.2

一种基于空间映射技术的国土空间碳排放核算方法_南京大学_202410195379.X

一种DMRS频域映射方法及装置、电子设备、存储介质_上海擎昆信息科技有限公司_202011297284.7

深度复数卷积循环网络的映射方法、装置、设备及介质_杭州知存智能科技有限公司_202410160289.7

自动相关技术

自动卸锚台车_华能澜沧江水电股份有限公司_202322583220.9

自动风量调节装置_中船皆利气体科技(山西)有限公司_202322613595.5

自动出药装置_苏州优点优唯医疗科技有限公司_202322455212.6

自动玻璃钻孔装置_广东流光玻璃制品有限公司_202322362594.8

自动对准系统_国家电网有限公司_202211611575.8

自动生成排布系统_晶旭科技股份有限公司_202410143460.3

宠物自动喂食器_应聪聪_202322727091.6

自动玻璃上片机_无锡天和玻璃有限公司_202322581218.8

自动压盖装置_上海宝霆智能科技有限公司_202322199994.1

自动饲喂装置_山东畜牧兽医职业学院_202322031908.6

模型相关技术

模型渲染方法、装置、设备_北京完美赤金科技有限公司_202010888002.4

基于元模型的数据模型版本管理方法、装置、设备及介质_中国工商银行股份有限公司_202410200029.8

基于黑箱模型与灰箱模型切换的冷却塔运行控制方法_博锐尚格科技股份有限公司_202111647709.7

基于条件扩散模型的细胞荧光图像生成方法、模型及应用_南方医科大学_202410129759.3

机器学习模型运用管理系统以及机器学习模型运用管理方法_川崎重工业株式会社_202080017363.X

去反光模型的训练方法、去反光模型和去反光方法_荣耀终端有限公司_202311752567.X

验证设计版图检测模型功能的方法、验证模型及测试系统_深圳晶源信息技术有限公司_202311550268.8

图像检测方法、模型及装置_联想(北京)有限公司_202410140089.5

通过物理接触细化虚拟网格模型_微软技术许可有限责任公司_201980048643.4

模型防窃取方法、装置及介质_浙江中烟工业有限责任公司_202410164111.X

龙图腾网&IPTOP

【发明授权】一种科技文献类目自动映射模型训练与预测方法_江西师范大学_202410132324.4

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务