【发明授权】基于预训练模型T5的学术知识图谱补全方法_西安工程大学_202310997295.3

导航：龙图腾网> 最新专利技术> 基于预训练模型T5的学术知识图谱补全方法_西安工程大学_202310997295.3

申请/专利权人：西安工程大学

申请日：2023-08-09

公开（公告）日：2024-03-01

公开（公告）号：CN116910272B

主分类号：G06F16/36

分类号：G06F16/36;G06F16/33;G06F40/211;G06F40/289

优先权：

专利状态码：有效-授权

法律状态：2024.03.01#授权;2023.11.07#实质审查的生效;2023.10.20#公开

摘要：本发明公开了一种基于预训练模型T5的学术知识图谱补全方法，针对知识图谱设计了句子模板，生成了融入实体类型信息的前缀提示，将知识图谱补全任务转换为连贯句子生成任务；可以更好的引导模型依赖预训练阶段学习到的知识进行推理，无需从头训练一个特定于学术领域的大型预训练模型，节省训练成本同时提升知识图谱补全任务精度。本发明基于预训练模型T5的学术知识图谱补全方法发明采用替换词汇表中预留词汇的方法来修改分词器，避免了模型整体从头训练，显著节约了时间成本，利用集束搜索的自回归解码方式替换传统的打分方式，极大地节约了模型的训练时间。

主权项：1.基于预训练模型T5的学术知识图谱补全方法，其特征在于，该方法按照以下步骤实施，步骤1：对学术领域知识图谱数据集中的三元组进行数据清洗，将三元组转换为连贯句子作为模型输入；所述三元组包括头实体、关系、尾实体；所述学术知识图谱中包括的实体类型有论文、作者、机构；步骤2：修改T5模型预训练词汇表，在词汇表中加入在科学文本语料上训练得到的sciBERT分词器中的高频令牌；修改T5模型词汇表的方法具体如下：步骤2.1：利用sciBERT模型分词器对步骤1处理得到的句子进行分词，统计分词结果中各令牌出现频率；步骤2.2：利用T5模型分词器对步骤1处理得到的句子进行分词，统计分词结果中各令牌出现频率；步骤2.3：对比两个模型分词结果，统计分词结果不同的令牌的频率，按照从高到低进行排序，取频率最高的前999个令牌替换T5词汇表中预留的令牌，将这些令牌的权重随机初始化，在保留现有模型能力情况下训练这些高频令牌的嵌入表示；步骤3：将步骤1处理后的连贯句子经步骤2修改词汇表后的T5模型进行编码；步骤4：采用集束搜索算法缩小T5模型解码器的搜索空间，解码后得到待预测的实体关系的文本并对模型输出进行打分排序得到预测结果；具体如下：步骤4.1：解码器中选择使用集束搜索算法来进行解码，将集束搜索算法中的集束宽度N设置为3，集束搜索算法对待预测词汇e的概率进行计算，计算方法为：pe＝max{logpe1|F,logpe2|F,logpe3|F},e∈c其中，c为分词器中包含的所有令牌的集合；e1、e2、e3分别对数概率最高的三个令牌；F是模型预测输出的正确概率；步骤4.2：通过自回归解码的方式来计算预测输出的得分，最后按照得分从高到低进行排序得到预测结果，得分计算公式为： x为模型的输入序列；y代表模型的预测输出序列；zi代表第i个令牌；c为分词器中包含的所有令牌集合；步骤4.3：训练过程采用标准的序列到序列模型目标函数进行优化。

全文数据：

权利要求：

百度查询：西安工程大学基于预训练模型T5的学术知识图谱补全方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：帏中香风味纸张的制备方法_扬州市祥华新材料科技有限公司_202211345365.9

下一篇：一种用于开槽埋管的冷冻施工辅助设备及方法_长江生态环保集团有限公司_202310118173.2

相关技术

帏中香风味纸张的制备方法_扬州市祥华新材料科技有限公司_202211345365.9

一种用于开槽埋管的冷冻施工辅助设备及方法_长江生态环保集团有限公司_202310118173.2

双电源双炉体切换开关的自动化控制系统_苏州振湖电炉有限公司_202111432710.8

一种对文言文中缺失文字的补全方法_丁杨_202311025114.7

泌尿道菌群检测在女性泌尿道结石诊断中的应用_广东省科学院微生物研究所(广东省微生物分析检测中心)_202111500822.2

光催化装置嵌入沉砂池协同降解辣椒素污水与除砂_山东建筑大学_202111505610.3

一种基于Flink流处理的地铁轨道几何检测数据清洗方法_成都国铁电气设备有限公司_202210023454.5

一种结构紧凑的测斜仪骨架_青岛智腾科技有限公司_201910663221.X

一种产丙酸的工程益生菌的构建与应用_天津大学_202310196065.7

一种基于动网格模拟隧道列车运动的结构网格划分方法_天津大学_202111426137.X

一种基于准零刚度原理的空气悬架及其结构设计与优化方法_江苏大学_202111438418.7

一种弱监督云检测方法_安徽大学_202310764234.2

龙图腾网&IPTOP

【发明授权】基于预训练模型T5的学术知识图谱补全方法_西安工程大学_202310997295.3

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务