买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】基于鹦鹉复述生成器的抽取式问答数据增强方法_江西师范大学_202311483800.9 

申请/专利权人:江西师范大学

申请日:2023-11-09

公开(公告)日:2023-12-12

公开(公告)号:CN117216231A

主分类号:G06F16/332

分类号:G06F16/332;G06F16/33;G06F16/335;G06F16/35;G06F40/194;G06F40/30

优先权:

专利状态码:在审-实质审查的生效

法律状态:2023.12.29#实质审查的生效;2023.12.12#公开

摘要:本发明公开了基于鹦鹉复述生成器的抽取式问答数据增强方法,从阅读理解问答数据集中选取的八种不同类型的数据集中随机采样获得不同样本数的子数据集,从子数据集中获取原问题,输入鹦鹉复述生成器中生成具有多样性的新问题;将生成的新问题和原问题一起输入充分性过滤器;然后将过滤后的新问题输入流利性过滤器;再将过滤后的新问题和原问题一起输入复述选择器中;最后得到的新问题与对应原问题的文本和答案组合构成增强后的子数据集。将被过滤掉的新问题输入预训练语言模型得到负样本答案,利用对比学习方法计算出目标损失,将增强后的子数据集作为微调的输入,同时将对比学习目标损失加入微调总损失,从而提升微调后预训练语言模型性能。

主权项:1.基于鹦鹉复述生成器的抽取式问答数据增强方法,其特征在于:方法步骤如下:步骤S1,数据集构建;在共享数据集获得八组不同的子数据集;步骤S2,少资源抽取式问答任务形式化定义;给定N条问答对的数据集,为第1个问答对,为第2个问答对,为第N个问答对;由三元组组成,;C为每个问答对中的文本,Q为每个问答对中的原问题,A为每个问答对中原问题的原答案;步骤S3,鹦鹉复述生成器为预训练语言模型进行下游任务微调过程的入口,输入步骤S1中的子数据集中的数据;从子数据集中提取出每个问答对中的原问题Q,将每个问答对中的原问题Q输入到鹦鹉复述生成器,生成每个问答对中的原问题对应生成的新问题;步骤S4,将步骤S3获得的每个问答对中的原问题对应生成的新问题和对应的每个问答对中的原问题Q一起输入到充分性过滤器中,保留下来得分高于或等于超参数充分性阈值的经过充分性过滤器筛选后的新问题;步骤S5,将步骤S4保留下来的经过充分性过滤器筛选后的新问题输入到流利性过滤器中,保留下来得分高于或等于超参数流利性阈值的经过流利性过滤器筛选后的新问题;步骤S6,将步骤S5保留下来的经过流利性过滤器筛选后的新问题和对应的每个问答对中的原问题Q一起输入到复述选择器中,保留下来得分高于或等于超参数相似度阈值的经过复述选择器筛选后的新问题;步骤S7,将步骤S4,S5和S6过程中过滤掉的新问题称为负样本问题,将负样本问题输入预训练语言模型中,得到对应的负样本答案,并利用对比学习方法计算出该负样本答案的负样本得分,同样用对比学习方法计算每个问答对中原问题的原答案A的得分G;步骤S8,对于每个问答对中的负样本答案,计算其词语级别的对比学习的目标损失;步骤S9,将经过复述选择器筛选后的新问题、对应的每个问答对中的原问题Q的问答对中的文本C、对应的每个问答对中的原答案A组合,构成增强后的子数据集,输入到预训练语言模型中进行针对下游任务的微调过程,并且将步骤S8中计算出来的对比学习的目标损失加入到预训练语言模型微调过程中的总损失L中。

全文数据:

权利要求:

百度查询: 江西师范大学 基于鹦鹉复述生成器的抽取式问答数据增强方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。