【发明公布】基于鹦鹉复述生成器的抽取式问答数据增强方法_江西师范大学_202311483800.9

导航：龙图腾网> 最新专利技术> 基于鹦鹉复述生成器的抽取式问答数据增强方法_江西师范大学_202311483800.9

申请/专利权人：江西师范大学

申请日：2023-11-09

公开（公告）日：2023-12-12

公开（公告）号：CN117216231A

主分类号：G06F16/332

分类号：G06F16/332;G06F16/33;G06F16/335;G06F16/35;G06F40/194;G06F40/30

优先权：

专利状态码：在审-实质审查的生效

法律状态：2023.12.29#实质审查的生效;2023.12.12#公开

摘要：本发明公开了基于鹦鹉复述生成器的抽取式问答数据增强方法，从阅读理解问答数据集中选取的八种不同类型的数据集中随机采样获得不同样本数的子数据集，从子数据集中获取原问题，输入鹦鹉复述生成器中生成具有多样性的新问题；将生成的新问题和原问题一起输入充分性过滤器；然后将过滤后的新问题输入流利性过滤器；再将过滤后的新问题和原问题一起输入复述选择器中；最后得到的新问题与对应原问题的文本和答案组合构成增强后的子数据集。将被过滤掉的新问题输入预训练语言模型得到负样本答案，利用对比学习方法计算出目标损失，将增强后的子数据集作为微调的输入，同时将对比学习目标损失加入微调总损失，从而提升微调后预训练语言模型性能。

主权项：1.基于鹦鹉复述生成器的抽取式问答数据增强方法，其特征在于：方法步骤如下：步骤S1，数据集构建；在共享数据集获得八组不同的子数据集；步骤S2，少资源抽取式问答任务形式化定义；给定N条问答对的数据集，为第1个问答对，为第2个问答对，为第N个问答对；由三元组组成，；C为每个问答对中的文本，Q为每个问答对中的原问题，A为每个问答对中原问题的原答案；步骤S3，鹦鹉复述生成器为预训练语言模型进行下游任务微调过程的入口，输入步骤S1中的子数据集中的数据；从子数据集中提取出每个问答对中的原问题Q，将每个问答对中的原问题Q输入到鹦鹉复述生成器，生成每个问答对中的原问题对应生成的新问题；步骤S4，将步骤S3获得的每个问答对中的原问题对应生成的新问题和对应的每个问答对中的原问题Q一起输入到充分性过滤器中，保留下来得分高于或等于超参数充分性阈值的经过充分性过滤器筛选后的新问题；步骤S5，将步骤S4保留下来的经过充分性过滤器筛选后的新问题输入到流利性过滤器中，保留下来得分高于或等于超参数流利性阈值的经过流利性过滤器筛选后的新问题；步骤S6，将步骤S5保留下来的经过流利性过滤器筛选后的新问题和对应的每个问答对中的原问题Q一起输入到复述选择器中，保留下来得分高于或等于超参数相似度阈值的经过复述选择器筛选后的新问题；步骤S7，将步骤S4，S5和S6过程中过滤掉的新问题称为负样本问题，将负样本问题输入预训练语言模型中，得到对应的负样本答案，并利用对比学习方法计算出该负样本答案的负样本得分，同样用对比学习方法计算每个问答对中原问题的原答案A的得分G；步骤S8，对于每个问答对中的负样本答案，计算其词语级别的对比学习的目标损失；步骤S9，将经过复述选择器筛选后的新问题、对应的每个问答对中的原问题Q的问答对中的文本C、对应的每个问答对中的原答案A组合，构成增强后的子数据集，输入到预训练语言模型中进行针对下游任务的微调过程，并且将步骤S8中计算出来的对比学习的目标损失加入到预训练语言模型微调过程中的总损失L中。

全文数据：

权利要求：

百度查询：江西师范大学基于鹦鹉复述生成器的抽取式问答数据增强方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种印刷电路板加工用压膜装置_南通欧贝达电子科技有限公司_202322176231.5

下一篇：一种籽晶自动熔接结构_四川永祥光伏科技有限公司_202322431204.8

相关技术

一种印刷电路板加工用压膜装置_南通欧贝达电子科技有限公司_202322176231.5

一种籽晶自动熔接结构_四川永祥光伏科技有限公司_202322431204.8

一种钢带波纹螺旋管接头防护模具_吉林建工集团有限公司_202322063597.1

一种盒式包装机输送机构_安徽从仁堂生物科技有限公司_202322459283.3

双组份胶水即停防干装置_重庆金芯麦斯传感器技术有限公司_202322250925.9

一种天然气管道不停输开孔装置_盐城新奥燃气有限公司_202322202238.X

一种新型立式磷石膏废料破碎机_湖北旭特建材科技有限公司_202322371565.8

一种煤矿井下局部通风机远程开停装置_贵州贵能投资股份有限公司_202322392209.4

一种钝化复合功能层和TOPCon电池_中环新能(安徽)先进电池制造有限公司_202322011797.2

一种打印机线路板加工用吸附输送轨道_威海光大光电有限公司_202322481598.8

一种注塑机新型泵罩门板_恩格尔注塑机械(常州)有限公司_202322227242.1

一种用于汽车保险杠加工的旋转喷漆装置_重庆渝湘智成汽车配件有限公司_202322547178.5

式相关技术

连续式烧成炉_NGK(苏州)热工技术有限公司_202322466942.6

电动式作业机械_洋马控股株式会社_202311356465.6

卷绕式芯包_中能瑞新(深圳)能源科技有限公司_202322573585.3

头戴式耳机_惠州市欧凡实业有限公司_202311129557.0

折叠式画框幕_深圳市幕工坊科技有限公司_202111603921.3

背负式割草机_武义豪远五金制品有限公司_202311161366.2

折叠式婴儿摇床_湖南自由熊巴鲁母婴用品有限公司_202322518269.6

便携式动力工具_喜利得股份公司_201980079537.2

直接式制冷空调系统_肖志东_201910108451.X

膜式氧合器_江苏赛腾医疗科技有限公司_202410017351.7

问答相关技术

视频问答方法及电子设备_华为技术有限公司_202211289300.7

问答机器人健康度评估方法、装置、设备及存储介质_平安银行股份有限公司_202111150154.5

基于指令微调和检索增强生成的在线智能问答方法及装置_杭州有赞科技有限公司_202410118530.X

基于知识图谱的柑橘管控问答模块构建方法及问答系统_华南农业大学_202111387891.7

智能问答模型优化方法及装置_中国银行股份有限公司_202010830599.7

汽车知识问答方法、装置、电子装置和存储介质_浙江凌骁能源科技有限公司_202311759434.5

一种生成式问答的评价方法_北京工业大学_202110184397.4

客服智能问答实现方法、装置、设备及存储介质_深圳市闪剪智能科技有限公司_202311868260.6

一种作业问答方法、装置、客户端、设备及介质_深圳市酷开网络科技股份有限公司_202311709143.5

一种面向医疗知识图谱问答的问句解析方法_武汉科技大学_202111170907.9

抽取相关技术

基于ES的医疗主索引抽取合并方法及系统_成都医星科技有限公司_202311044701.0

一种从油脂水解输液管道上抽取液体的取样装置_青岛金牛油脂科技有限公司_202321481728.1

一种金属带卷芯轴抽取装置_涿州北方重工设备设计有限公司_202322404436.4

一种水质量管理抽取设备_凯乐检测认证集团(甘肃)有限公司_202322299998.7

一种知识联合抽取模型训练方法_广东工业大学_202110466416.2

基于远程监督关系抽取的肝癌信息标注系统_杭州电子科技大学_202311787038.3

一种实体关系的抽取方法和装置_北京捷通华声科技股份有限公司_202010519899.3

一种细粒度情感元素抽取方法及系统_广东工业大学_202410062045.5

基于人工智能的文本课件的内容抽取方法及相关设备_平安国际智慧城市科技股份有限公司_202110839260.8

多任务序列标注的药物实体和相互作用联合抽取方法_电子科技大学_202210628078.2

龙图腾网&IPTOP

【发明公布】基于鹦鹉复述生成器的抽取式问答数据增强方法_江西师范大学_202311483800.9

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务