【发明授权】一种基于多语种机器翻译的数据增强方法及系统_云知声智能科技股份有限公司;厦门云知芯智能科技有限公司_202110132065.1

申请/专利权人：云知声智能科技股份有限公司;厦门云知芯智能科技有限公司

申请日：2021-01-31

公开（公告）日：2024-03-08

公开（公告）号：CN112749570B

主分类号：G06F40/58

分类号：G06F40/58;G06F40/289;G06N3/02

优先权：

专利状态码：有效-授权

法律状态：2024.03.08#授权;2021.05.21#实质审查的生效;2021.05.04#公开

摘要：本发明涉及一种基于多语种机器翻译的数据增强方法及系统，方法包括：利用预先训练的多语种翻译模型将原句从源语言翻译成目标语言，得到概率不同的多个候选译文，其中，源语言与目标语言相同；保留多个候选译文中与原句不完全相同的候选译文作为用于训练相应翻译模型的训练数据。本发明由于联合训练和知识迁移，多语种翻译模型中低资源和零资源语言的翻译受益于高资源语言，因此能够获得高质量、多样化的训练数据作为训练翻译模型的训练资源，有利于模型性能的提高；并且，由于多语种翻译模型具有多语种翻译和零资源翻译的能力，可以实现多个语种的同种语言间翻译，因此只需要训练一个多语种翻译模型即可进行多个语种的数据增强，降低资源成本。

主权项：1.一种基于多语种机器翻译的数据增强方法，其特征在于，包括：采用训练数据训练多语种翻译模型，训练数据包含多种语言对的双语平行语料；并为每个源句添加目标语言标记；用基于神经网络编码器-解码器的机器翻译模型，读取上述训练数据进行模型训练，得到多语种翻译模型，该模型具备翻译成指定语种的翻译能力；利用预先训练的多语种翻译模型将原句从源语言翻译成目标语言，得到概率不同的多个候选译文，其中，所述源语言与目标语言相同；用beamsearch算法来生成top-n个候选译文,设beam_size＝n，在decoder解码过程中：步骤1.生成第1个词时，选择概率最大的n个词作为候选结果；步骤2.生成第2个词时，将步骤1中的候选结果分别与训练模型时词表中生成的词进行组合得到新的序列，选择概率最大的n个序列作为候选结果；步骤3.重复步骤2，直到遇到结束符或者达到最大长度为止，最终输出得分最高的n个序列，即top-n个候选译文；保留所述多个候选译文中与所述原句不完全相同的候选译文作为用于训练相应翻译模型的训练数据。

全文数据：

权利要求：

百度查询：云知声智能科技股份有限公司;厦门云知芯智能科技有限公司一种基于多语种机器翻译的数据增强方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种药材脱皮机_安徽亳药福泰药业有限公司_202322752517.3

下一篇：一种园林绿化便携铲_马丽丽_202322375183.2

相关技术

一种药材脱皮机_安徽亳药福泰药业有限公司_202322752517.3

一种园林绿化便携铲_马丽丽_202322375183.2

一种不锈钢带输送机构_佛山市南海区东励森金属制品有限公司_202322463638.6

一种高速直驱转台_江苏心力量智能科技有限公司_202322229050.4

一种新型加湿器_莆田市必捷电子有限公司_202322599727.3

一种防卡管测斜仪探头_中国建筑西南勘察设计研究院有限公司_202420526288.5

配备可拆固定式导纸嘴的打印装置_长城信息股份有限公司_202322616485.4

一种无人机使用高清摄像模组_陕西泰沃云科技有限公司_202322392870.5

一种精密小磨床用物料固定装置_昆山法尔霆机电科技有限公司_202322612017.X

一种梳式烟夹的胶头自动组装设备_广州阿尔法精密机械有限公司_202322475952.6

一种点火线圈密封结构_一汽解放汽车有限公司_202322812056.4

一种水泵节能增压装置_陕西海利智慧能源科技有限公司_202322218413.4

龙图腾网&IPTOP

【发明授权】一种基于多语种机器翻译的数据增强方法及系统_云知声智能科技股份有限公司;厦门云知芯智能科技有限公司_202110132065.1

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务