【发明授权】一种基于Transformer生成模型的真实场景中文文本纠错方法_中国—东盟信息港股份有限公司_202311244618.8

申请/专利权人：中国—东盟信息港股份有限公司

申请日：2023-09-25

公开（公告）日：2024-04-19

公开（公告）号：CN117236319B

主分类号：G06F40/232

分类号：G06F40/232;G06N5/04;G06N3/0455;G06N3/08

优先权：

专利状态码：有效-授权

法律状态：2024.04.19#授权;2024.01.02#实质审查的生效;2023.12.15#公开

摘要：本发明公开了一种基于Transformer生成模型的真实场景中文文本纠错方法，涉及计算机软件技术。根据初始数据集建立多任务训练数据集，并对其进行训练，以获取Tokenizer；将开源T5生成模型作为预训练模型；通过Tokenizer对多任务训练数据集进行数据转换，并将数据转换后的多任务训练数据集输入至预训练模型进行训练，以获得文本纠错模型；将待纠错的文档中的文本数据进行拆句处理，以获取句子集合；将句子集合输入至Tokenizer进行预处理，以获取模型输入数据；将模型输入数据输入至文本纠错模型进行预测推理，获得初始推理结果；将初始推理结果进行筛选，获得文本纠错结果。本发明可以对真实场景下的办公文本文档进行比较准确的错误内容纠正，进一步获得更为准确的中文纠错结果。

主权项：1.一种基于Transformer生成模型的真实场景中文文本纠错方法，其特征在于，该方法包括：步骤1：采集公开数据集和内部数据集；步骤2：根据所述公开数据集和内部数据集建立具有标准提示语的多任务训练数据集；步骤3：将所述多任务训练数据集输入到BPE算法中进行训练，以获取Tokenizer；步骤4：获取由多语言数据库训练得到的开源T5生成模型作为预训练模型；步骤5：通过所述Tokenizer对多任务训练数据集进行数据转换，并将数据转换后的多任务训练数据集输入至所述预训练模型进行训练，以获得文本纠错模型；步骤6：将待纠错的文档中的文本数据进行拆句处理，以获取句子集合；将所述句子集合输入至Tokenizer进行预处理，以获取模型输入数据；步骤7：将所述模型输入数据输入至文本纠错模型进行预测推理，获得初始推理结果；步骤8：将所述初始推理结果进行筛选，获得文本纠错结果；在所述多任务训练数据集输入到BPE算法中前，对所述BPE算法的参数进行配置；所述BPE算法的参数配置具体为，所述BPE算法中的Normalizer使用NFKC方法，预处理使用Whitespace方法，解码器使用ByteLevel方法，设置词矩阵大小为固定值一，设置起始、结束、未知、mak标识作为特殊字符，采用所述多任务训练数据集总长度作为训练长度，批大小设置为固定值二；在步骤4中，所述多语言数据库采用mC4多语言数据；所述预训练模型采用Large版本T5生成模型。

全文数据：

权利要求：

百度查询：中国—东盟信息港股份有限公司一种基于Transformer生成模型的真实场景中文文本纠错方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：RS485总线中多传感器编址方法、数据采集设备和系统_广州鲁邦通物联网科技股份有限公司_202011486283.7

下一篇：一种基于动网格模拟隧道列车运动的结构网格划分方法_天津大学_202111426137.X

相关技术

RS485总线中多传感器编址方法、数据采集设备和系统_广州鲁邦通物联网科技股份有限公司_202011486283.7

一种基于动网格模拟隧道列车运动的结构网格划分方法_天津大学_202111426137.X

一种带角度弹性垫圈的热处理方法及热处理装置_贵州航天精工制造有限公司_202111464284.6

一种直径与中继协作的信号空间分集传输方法_山东交通学院_202110011021.3

一种外导体压接装置_江苏博之旺自动化设备有限公司_202111235070.1

一种基于准零刚度原理的空气悬架及其结构设计与优化方法_江苏大学_202111438418.7

一种乘用车极限强度冲击试验平台辅助装置_中汽研汽车试验场股份有限公司_201911236112.6

一种基于红外检测技术的探测装置及使用方法_黎明职业大学_201911007934.7

一种焊剂片约束电弧焊焊接T型接头的夹具_兰州理工大学_201910643137.1

一种降低冷轧轧制力的方法_首钢智新迁安电磁材料有限公司_202111360250.2

一种富氦气藏区带的评价方法、装置、设备及介质_中国石油天然气股份有限公司_202311208279.8

一种针织设备用高速烘干机_海阳市清鸿制衣有限公司_202410304172.1

龙图腾网&IPTOP

【发明授权】一种基于Transformer生成模型的真实场景中文文本纠错方法_中国—东盟信息港股份有限公司_202311244618.8

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务