买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于样本增强和自训练的低资源文本智能评阅方法和装置_山东山大鸥玛软件股份有限公司_202310113302.9 

申请/专利权人:山东山大鸥玛软件股份有限公司

申请日:2023-02-15

公开(公告)日:2023-05-26

公开(公告)号:CN115827879B

主分类号:G06F16/35

分类号:G06F16/35;G06F40/30;G06F18/214;G06F18/2415;G06F18/2431;G06F18/2135;G06F18/25;G06N3/0455;G06N3/047;G06N3/084;G06N3/0895

优先权:

专利状态码:有效-授权

法律状态:2023.05.26#授权;2023.04.07#实质审查的生效;2023.03.21#公开

摘要:基于样本增强和自训练的低资源文本智能评阅方法和装置,属于自然语言处理的技术领域,包括:样本增强:用于完成对输入的评阅样本的增强任务,得到增强后的评阅样本;样本困难性评价:用于在评阅模型微调和自训练过程中计算每个样本的困难性;评阅模型微调及自训练:用于基于样本增强后的评阅样本对评阅模型进行微调训练;然后引入大量同源无标记数据进行伪标记预测并扩充到原训练集中,对评阅模型进行自训练。本发明能更好适合于评阅样本数量有限的情况,提升了数据增强效果和模型的鲁棒性;能增强评阅模型在训练数据中存在噪音样本和简单样本时的性能;能够提升伪标记的准确率。

主权项:1.基于样本增强和自训练的低资源文本智能评阅方法,其特征在于,包括:(1)样本增强:用于完成对输入的评阅样本的增强任务,得到增强后的评阅样本;(2)样本困难性评价:用于在评阅模型微调和自训练过程中计算每个样本的困难性;(3)评阅模型微调及自训练:用于基于样本增强后的评阅样本对评阅模型进行微调训练;然后引入大量同源无标记数据进行伪标记预测并扩充到原训练集中,对评阅模型进行自训练;所述步骤(1)所述样本增强的具体方法包括,对输入的少量评阅样本进行增强:初始少量评阅样本包括多个知识点上的若干文本推理样本;每个知识点上的样本表示为的集合,其中为包含代表该知识点的参考答案文本和学生答案文本的文本对形式,推理标记表示文本对的蕴含和非蕴含两种推理关系;其中,蕴含关系表示学生答案文本在参考答案文本所关联的知识点上与参考答案文本语义一致,非蕴含关系则表示不一致;(1-1)利用少量评阅样本构建NLI任务的蕴含、矛盾、中立三分类样本来进行样本增强:(1-1-1)构造蕴含样本,使得同知识点中两个语义一致的单文本得到信息交互,从单个知识点的样本中采样构造,包含两类构造方式:参考答案文本和呈蕴含关系的学生答案文本组成的文本对;同参考答案文本呈蕴含关系的任意两个学生答案文本组成的文本对,其标签,表蕴含;(1-1-2)构造矛盾样本,使得同知识点中两个语义不一致的单文本得到信息交互,从单个知识点的样本中采样构造,包含两类构造方式:参考答案文本和呈非蕴含关系的学生答案文本组成的文本对;同参考答案文本分别呈蕴含和非蕴含关系的任意两个学生答案文本组成的文本对,其标签,表矛盾;(1-1-3)构造中立样本,使得不同知识点,即不同文本关注点,其中的单文本的语义信息得到交互,从不同知识点采样进行构造,包括某一个知识点的参考答案文本或学生答案文本,和另一知识点的学生答案文本的交互文本对,其标签,表中立;(1-2)评阅模型对参考答案文本和学生答案文本位置调换的文本对样本进行预测时,其预测结果不变,将包含参考答案文本的文本对进行翻转增强,其标签不变;定义蕴含、矛盾、中立三类增强样本的构造比例分别为,许可一般情况,且;所述步骤(2)中样本困难性评价的具体方法,包括:(2-1)使用交叉熵损失函数训练评阅模型,经过若干轮训练让评阅模型拟合简单样本;交叉熵损失如公式I: 其中,为类别标签的独热向量;为评阅模型预测的概率分布; (2-2)计算评阅模型优化每个样本时反向传播的梯度大小来量化样本的困难性:评阅模型通过多分类器输出概率分布,为神经网络给分类器的输入,推导梯度知分别是的第元素值;定义样本困难性量化值为梯度模长之和的一半: 其中,样本困难性量化值;为表示样本类别的标签集合,为样本所属类别的标签;为概率分布的第元素值,代表着评阅模型预测出样本为第类的概率;公式III所示正态分布函数为加权函数: 其中,根据困难性量化值,利用函数对样本的交叉熵损失进行加权,得到如公式IV所示难度敏感损失函数;所述步骤(3)评阅模型微调及自训练的具体方法,输入Bert-Softmax评阅模型、初始样本集中多个知识点的无标记数据集合,微调及自训练步骤如下:(3-1)样本增强及评阅模型微调:采用步骤(1)的样本增强方法对进行增强得到增强样本集,作为训练用标记数据,对Bert-Softmax评阅模型进行微调得到评阅模型;(3-2)隐式特征计算:对于初始样本集中一个知识点的样本集,与对应知识点的无标记数据中的无标记学生答案文本组成文本库;对学生答案文本,计算学生答案文本的TF-IDF向量,使用主成分分析法分析TF-IDF向量的主要特征并进行降维,得到学生答案文本的隐式特征向量为;(3-3)伪标记预测及置信伪样本采样:对于无标记数据,构造关于的敏感文本对集合:;其中,为隐式特征向量最靠近隐式特征向量的个带蕴含标签的学生答案文本;使用评阅模型进行关系预测,得到个预测结果,相应的预测类别为;采用众数投票方式,得的伪标记为;计算第次推理的概率分布对伪标记的预测概率与最大非伪标记预测概率之差,作为第次推理对于伪标记的置信度,越大置信度越高,其中: 综合次置信度量,得文本的伪标记置信度量化值为: 其中,越大,无标记数据的伪标记越置信;从中根据值从大到小不放回采样伪样本,采样和原相同的数据量,扩充至中得到样本集,对每个知识点对应样本集经过上述扩充过程后,原样本集扩充为新样本集;(3-4)回到步骤(3-1),以样本集在评阅模型上继续微调,为不放回采样后剩下的无标记数据集合;重复步骤(3-1)至步骤(3-3)共轮,每轮训练用样本量扩充为原先的两倍,即,最终通过上述自训练过程得到评阅模型。

全文数据:

权利要求:

百度查询: 山东山大鸥玛软件股份有限公司 基于样本增强和自训练的低资源文本智能评阅方法和装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。