【发明授权】一种基于多答案损失函数的片段信息抽取模型训练方法_华东理工大学_202011080324.2

导航：龙图腾网> 最新专利技术> 一种基于多答案损失函数的片段信息抽取模型训练方法_华东理工大学_202011080324.2

申请/专利权人：华东理工大学

申请日：2020-10-10

公开（公告）日：2024-03-15

公开（公告）号：CN112131351B

主分类号：G06F16/33

分类号：G06F16/33;G06F16/36;G06F40/289;G06F40/30;G06F40/242

优先权：

专利状态码：有效-授权

法律状态：2024.03.15#授权;2021.01.12#实质审查的生效;2020.12.25#公开

摘要：本发明提供了一种基于多答案损失函数的片段信息抽取模型训练方法。包括：标注片段式信息，对文本中的作案手段和事发原因等片段式信息采取多准则标注，得到多个答案；对案由文本、标注答案进行预处理，并随机切分训练集、验证集和测试集；将训练集中预处理后的样本数据输入本文提出的模型中，得到所述输出的训练集中各文本对应的答案，其中，包括答案的开始和结束位置、以及位于所述开始和结束位置的概率。本发明能有效的避免标注者标注原则不统一的问题。

主权项：1.一种基于多答案损失函数的片段信息抽取模型训练方法，其特征在于，包括：标注片段式信息，对文本中的片段式信息采取多准则标注，得到多个标注答案，所述片段式信息是指标注边界模糊的短语或短句；对文本、标注答案进行预处理，并随机切分训练集、验证集和测试集；将训练集中预处理后的样本数据输入到基于多答案损失函数的片段信息抽取模型中训练，得到训练集中多个文本对应的答案，其中，所述文本对应的答案包括答案的开始位置、结束位置以及位于开始位置和结束位置的概率；所述基于多答案损失函数的片段信息抽取模型训练的过程包括：搭建多答案损失函数的片段信息抽取模型，首先构造BERT的基础结构以及预训练参数，包括四个输入层：词嵌入、段嵌入、位置嵌入、MASK嵌入；其后紧接着12个Transformer的encoding层，Transformer的encoding层用来对文本序列进行特征提取；最后由两个dense层组成，将提取后的特征向量降至1维，并分别进行压缩后利用softmax激活函数归一化，输出片段信息的起始位置和结束位置的概率；利用多答案损失函数来对所述多答案损失函数的片段信息抽取模型进行训练；利用基于片段信息抽取模型的评价函数进行评价；所述多答案损失函数包括：loss＝lossstart+lossend 其中，损失函数loss起始位置的loss和结束位置的loss共同决定，每个样本X＝x1,x2,…,xj,…xn存在m个标答P＝p,p2,…,pi,…pm，分别对pi与模型的输出概率q求交叉熵损失函数cross_entropypi,q，取最小的cross_entropy值作为最终的lossstart或lossend，其中，分别为第i个标答片段的起始位置和结束位置，qend分别为模型起始位置输出层和结束位置输出层的概率，pixj为第i个标答中第j个字符对应的标签取值，qxj为模型输出层中第j个字符对应的概率；所述基于片段信息抽取模型的评价函数，包括：其中，scorek为第k个样本k∈[1,N]的得分，若存在一个标答与模型输出最大概率的位置一致，则得分为1，否则得分为0，accstart和accend表示起始位置的准确率和结束位置的准确率，accstart和accend是对N个样本的得分取平均值。

全文数据：

权利要求：

百度查询：华东理工大学一种基于多答案损失函数的片段信息抽取模型训练方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种盒式包装机输送机构_安徽从仁堂生物科技有限公司_202322459283.3

下一篇：一种旋转式防撞护栏和混凝土护栏的过渡连接结构_浙江飞虹交通设施有限公司_202322419697.3

相关技术

一种盒式包装机输送机构_安徽从仁堂生物科技有限公司_202322459283.3

一种旋转式防撞护栏和混凝土护栏的过渡连接结构_浙江飞虹交通设施有限公司_202322419697.3

一种防堵污水管道_浩卓泵业(杭州)有限公司_202322092893.4

一种基于区块链技术的危险废物监管装置_上海博优环境科技发展有限公司_202322288382.X

一种旋转式防撞护栏和波形梁护栏的过渡连接结构_浙江飞虹交通设施有限公司_202322419695.4

一种玉米种植用病虫害防治装置_黄金双_202322446508.1

夹具_新疆蓝晶新材料科技有限公司_202322100063.1

一种水泥砼搅拌机用振动下料装置_巢湖市恒峰建设工程有限公司_202322581391.8

一种文旦柚栽培用的施肥装置_莆田冠腾科技有限公司_202322446584.2

一种高效散热电源_广州市力为电子有限公司_202322175013.X

用于高压柜体的固定防护装置_江苏贯中电气有限公司_202322341188.3

电池壳清洗用旋转框架安装槽的限位结构_无锡金杨丸伊电子有限公司_202322328357.X

龙图腾网&IPTOP

【发明授权】一种基于多答案损失函数的片段信息抽取模型训练方法_华东理工大学_202011080324.2

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务