申请/专利权人:中国—东盟信息港股份有限公司
申请日:2023-09-25
公开(公告)日:2024-04-19
公开(公告)号:CN117236319B
主分类号:G06F40/232
分类号:G06F40/232;G06N5/04;G06N3/0455;G06N3/08
优先权:
专利状态码:有效-授权
法律状态:2024.04.19#授权;2024.01.02#实质审查的生效;2023.12.15#公开
摘要:本发明公开了一种基于Transformer生成模型的真实场景中文文本纠错方法,涉及计算机软件技术。根据初始数据集建立多任务训练数据集,并对其进行训练,以获取Tokenizer;将开源T5生成模型作为预训练模型;通过Tokenizer对多任务训练数据集进行数据转换,并将数据转换后的多任务训练数据集输入至预训练模型进行训练,以获得文本纠错模型;将待纠错的文档中的文本数据进行拆句处理,以获取句子集合;将句子集合输入至Tokenizer进行预处理,以获取模型输入数据;将模型输入数据输入至文本纠错模型进行预测推理,获得初始推理结果;将初始推理结果进行筛选,获得文本纠错结果。本发明可以对真实场景下的办公文本文档进行比较准确的错误内容纠正,进一步获得更为准确的中文纠错结果。
主权项:1.一种基于Transformer生成模型的真实场景中文文本纠错方法,其特征在于,该方法包括:步骤1:采集公开数据集和内部数据集;步骤2:根据所述公开数据集和内部数据集建立具有标准提示语的多任务训练数据集;步骤3:将所述多任务训练数据集输入到BPE算法中进行训练,以获取Tokenizer;步骤4:获取由多语言数据库训练得到的开源T5生成模型作为预训练模型;步骤5:通过所述Tokenizer对多任务训练数据集进行数据转换,并将数据转换后的多任务训练数据集输入至所述预训练模型进行训练,以获得文本纠错模型;步骤6:将待纠错的文档中的文本数据进行拆句处理,以获取句子集合;将所述句子集合输入至Tokenizer进行预处理,以获取模型输入数据;步骤7:将所述模型输入数据输入至文本纠错模型进行预测推理,获得初始推理结果;步骤8:将所述初始推理结果进行筛选,获得文本纠错结果;在所述多任务训练数据集输入到BPE算法中前,对所述BPE算法的参数进行配置;所述BPE算法的参数配置具体为,所述BPE算法中的Normalizer使用NFKC方法,预处理使用Whitespace方法,解码器使用ByteLevel方法,设置词矩阵大小为固定值一,设置起始、结束、未知、mak标识作为特殊字符,采用所述多任务训练数据集总长度作为训练长度,批大小设置为固定值二;在步骤4中,所述多语言数据库采用mC4多语言数据;所述预训练模型采用Large版本T5生成模型。
全文数据:
权利要求:
百度查询: 中国—东盟信息港股份有限公司 一种基于Transformer生成模型的真实场景中文文本纠错方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。