买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于多答案损失函数的片段信息抽取模型训练方法_华东理工大学_202011080324.2 

申请/专利权人:华东理工大学

申请日:2020-10-10

公开(公告)日:2024-03-15

公开(公告)号:CN112131351B

主分类号:G06F16/33

分类号:G06F16/33;G06F16/36;G06F40/289;G06F40/30;G06F40/242

优先权:

专利状态码:有效-授权

法律状态:2024.03.15#授权;2021.01.12#实质审查的生效;2020.12.25#公开

摘要:本发明提供了一种基于多答案损失函数的片段信息抽取模型训练方法。包括:标注片段式信息,对文本中的作案手段和事发原因等片段式信息采取多准则标注,得到多个答案;对案由文本、标注答案进行预处理,并随机切分训练集、验证集和测试集;将训练集中预处理后的样本数据输入本文提出的模型中,得到所述输出的训练集中各文本对应的答案,其中,包括答案的开始和结束位置、以及位于所述开始和结束位置的概率。本发明能有效的避免标注者标注原则不统一的问题。

主权项:1.一种基于多答案损失函数的片段信息抽取模型训练方法,其特征在于,包括:标注片段式信息,对文本中的片段式信息采取多准则标注,得到多个标注答案,所述片段式信息是指标注边界模糊的短语或短句;对文本、标注答案进行预处理,并随机切分训练集、验证集和测试集;将训练集中预处理后的样本数据输入到基于多答案损失函数的片段信息抽取模型中训练,得到训练集中多个文本对应的答案,其中,所述文本对应的答案包括答案的开始位置、结束位置以及位于开始位置和结束位置的概率;所述基于多答案损失函数的片段信息抽取模型训练的过程包括:搭建多答案损失函数的片段信息抽取模型,首先构造BERT的基础结构以及预训练参数,包括四个输入层:词嵌入、段嵌入、位置嵌入、MASK嵌入;其后紧接着12个Transformer的encoding层,Transformer的encoding层用来对文本序列进行特征提取;最后由两个dense层组成,将提取后的特征向量降至1维,并分别进行压缩后利用softmax激活函数归一化,输出片段信息的起始位置和结束位置的概率;利用多答案损失函数来对所述多答案损失函数的片段信息抽取模型进行训练;利用基于片段信息抽取模型的评价函数进行评价;所述多答案损失函数包括:loss=lossstart+lossend 其中,损失函数loss起始位置的loss和结束位置的loss共同决定,每个样本X=x1,x2,…,xj,…xn存在m个标答P=p,p2,…,pi,…pm,分别对pi与模型的输出概率q求交叉熵损失函数cross_entropypi,q,取最小的cross_entropy值作为最终的lossstart或lossend,其中,分别为第i个标答片段的起始位置和结束位置,qend分别为模型起始位置输出层和结束位置输出层的概率,pixj为第i个标答中第j个字符对应的标签取值,qxj为模型输出层中第j个字符对应的概率;所述基于片段信息抽取模型的评价函数,包括: 其中,scorek为第k个样本k∈[1,N]的得分,若存在一个标答与模型输出最大概率的位置一致,则得分为1,否则得分为0,accstart和accend表示起始位置的准确率和结束位置的准确率,accstart和accend是对N个样本的得分取平均值。

全文数据:

权利要求:

百度查询: 华东理工大学 一种基于多答案损失函数的片段信息抽取模型训练方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。