买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】基于N-gram算法并利用下游任务筛选文本的文本增强方法_三峡大学_202310346077.3 

申请/专利权人:三峡大学

申请日:2023-03-31

公开(公告)日:2023-07-04

公开(公告)号:CN116384375A

主分类号:G06F40/216

分类号:G06F40/216;G06F40/242;G06F40/295

优先权:

专利状态码:在审-实质审查的生效

法律状态:2023.07.28#实质审查的生效;2023.07.04#公开

摘要:本发明涉及基于N‑gram算法并利用下游任务筛选文本的文本增强方法,包括:选用文本生成器,生成与原始文本相近的文本;设定用于评价文本生成质量的评分函数,并对每一批次生成的文本进行评分;在下游任务上对筛选出的文本进行评价;从得到的文本中选出语义通顺的文本作为下一批次文本生成过程的输入,重复生成文本得到所需数量的新文本。本发明同时采用基于N‑gram算法和加权平均的评分方式并结合下游任务评价生成文本的质量,使文本增强方法生成文本更通顺、连贯,有利于智能语言模型的训练。

主权项:1.基于N-gram算法并利用下游任务筛选文本的文本增强方法,其特征在于,包括以下步骤:步骤1:选择采用文本生成器,生成与原始文本相近的文本;步骤2:设定用于评价文本生成质量的评分函数,并对每一批次生成的文本进行评分;步骤2.1:建立基于N-gram算法和联合概率公式的评分函数,设定第一分数线,对生成的文本进行打分,筛选出得分大于第一分数线的文本;步骤2.2:建立基于加权平均的评分函数,设定第二分数线,对步骤2.1筛选得到的文本进行打分,筛选出得分大于第二分数线的文本;步骤3:在下游任务上对筛选出的文本进行评价;步骤3.1:将步骤2筛选得到的文本与原始文本合并,用于下游任务的预训练;步骤3.2:使用多种文本增强方式,生成与筛选出的文本数据量相同的数据,用于下游任务的预训练;步骤3.3:对步骤3.1和步骤3.2得到的文本进行评分,并设定第三分数线,筛选出得分大于第三分数线的文本;步骤4:从步骤3得到的文本中选出语义通顺的文本作为下一批次文本生成过程的输入,重复步骤1-3得到所需数量的新文本。

全文数据:

权利要求:

百度查询: 三峡大学 基于N-gram算法并利用下游任务筛选文本的文本增强方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。