【发明公布】基于N-gram算法并利用下游任务筛选文本的文本增强方法_三峡大学_202310346077.3

导航：龙图腾网> 最新专利技术> 基于N-gram算法并利用下游任务筛选文本的文本增强方法_三峡大学_202310346077.3

申请/专利权人：三峡大学

申请日：2023-03-31

公开（公告）日：2023-07-04

公开（公告）号：CN116384375A

主分类号：G06F40/216

分类号：G06F40/216;G06F40/242;G06F40/295

优先权：

专利状态码：在审-实质审查的生效

法律状态：2023.07.28#实质审查的生效;2023.07.04#公开

摘要：本发明涉及基于N‑gram算法并利用下游任务筛选文本的文本增强方法，包括：选用文本生成器，生成与原始文本相近的文本；设定用于评价文本生成质量的评分函数，并对每一批次生成的文本进行评分；在下游任务上对筛选出的文本进行评价；从得到的文本中选出语义通顺的文本作为下一批次文本生成过程的输入，重复生成文本得到所需数量的新文本。本发明同时采用基于N‑gram算法和加权平均的评分方式并结合下游任务评价生成文本的质量，使文本增强方法生成文本更通顺、连贯，有利于智能语言模型的训练。

主权项：1.基于N-gram算法并利用下游任务筛选文本的文本增强方法，其特征在于，包括以下步骤：步骤1：选择采用文本生成器，生成与原始文本相近的文本；步骤2：设定用于评价文本生成质量的评分函数，并对每一批次生成的文本进行评分；步骤2.1：建立基于N-gram算法和联合概率公式的评分函数，设定第一分数线，对生成的文本进行打分，筛选出得分大于第一分数线的文本；步骤2.2：建立基于加权平均的评分函数，设定第二分数线，对步骤2.1筛选得到的文本进行打分，筛选出得分大于第二分数线的文本；步骤3：在下游任务上对筛选出的文本进行评价；步骤3.1：将步骤2筛选得到的文本与原始文本合并，用于下游任务的预训练；步骤3.2：使用多种文本增强方式，生成与筛选出的文本数据量相同的数据，用于下游任务的预训练；步骤3.3：对步骤3.1和步骤3.2得到的文本进行评分，并设定第三分数线，筛选出得分大于第三分数线的文本；步骤4：从步骤3得到的文本中选出语义通顺的文本作为下一批次文本生成过程的输入，重复步骤1-3得到所需数量的新文本。

全文数据：

权利要求：

百度查询：三峡大学基于N-gram算法并利用下游任务筛选文本的文本增强方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种印刷电路板加工用压膜装置_南通欧贝达电子科技有限公司_202322176231.5

下一篇：一种醋酸钠生产用搅拌装置_安徽海逸生物科技有限公司_202322412726.3

相关技术

一种印刷电路板加工用压膜装置_南通欧贝达电子科技有限公司_202322176231.5

一种醋酸钠生产用搅拌装置_安徽海逸生物科技有限公司_202322412726.3

电池包和用电装置_蔚来电池科技(安徽)有限公司_202322200695.5

一种双卧轴连续式混凝土搅拌装置_广安金都混凝土有限公司_202322291527.1

一种接触器触头机构_杭州玛实迪电器科技有限公司_202322179096.X

一种文旦柚栽培用的施肥装置_莆田冠腾科技有限公司_202322446584.2

一种矮轴gasket结构的机械键盘_渴创技术(深圳)有限公司_202322395230.X

一种用于负极材料粉尘除尘器_天津燃洁斯工业设备有限公司_202322051874.7

一种玉米种植用病虫害防治装置_黄金双_202322446508.1

夹具_新疆蓝晶新材料科技有限公司_202322100063.1

电池壳清洗用旋转框架安装槽的限位结构_无锡金杨丸伊电子有限公司_202322328357.X

一种超低能耗制备电解液及硫酸氧钒晶体的系统_广东中科天钒储能科技有限公司_202322441183.8

龙图腾网&IPTOP

【发明公布】基于N-gram算法并利用下游任务筛选文本的文本增强方法_三峡大学_202310346077.3

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务