买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于罗马化维吾尔语的神经机器翻译系统_南京大学_202011298243.X 

申请/专利权人:南京大学

申请日:2020-11-19

公开(公告)日:2024-03-19

公开(公告)号:CN112507734B

主分类号:G06F40/58

分类号:G06F40/58;G06F40/284;G06F40/289;G06F40/242

优先权:

专利状态码:有效-授权

法律状态:2024.03.19#授权;2021.04.02#实质审查的生效;2021.03.16#公开

摘要:本发明公开了一种基于罗马化维吾尔语的神经机器翻译系统,在构建翻译系统前,对汉维双,为后续例如词对齐处理提供分好词且格式恰当的双语数据;本系统的预处理根据语料不同的特性,对语料进行不同的预处理过程,即对中文语料使用Jieba分词,并使用BPE编码继续切割单词,而对维吾尔语语料首先进行“词根+词缀”形态分词,接着对分词后的维吾尔语进行罗马化处理,最后使用BPE编码进行处理;使用Tansformer翻译模型进行翻译模型训练,得到最终翻译模型;对于翻译过程,首先同样对维吾尔语进行预处理,即“词根+词缀”分词和罗马化处理,接着使用训练好的模型翻译处理好的语料,最终将得到翻译好的汉语。

主权项:1.一种基于罗马化维吾尔语的神经机器翻译系统,其特征在于,包括以下处理步骤:步骤S1、维吾尔语料预处理;步骤S1.1、“词根+词缀”形态分词;采用有限状态自动机FSM对维吾尔语料进行切分;通过以下步骤生成后缀集:步骤S1.1.1、构造后缀集并创建根驱动的有限状态自动机FSA;步骤S1.1.2、反转FSA并获得非确定性有限状态自动机NFA;步骤S1.1.3、将NFA转换为确定性有限自动机DFA;步骤S1.2、对切分后的维吾尔语料进行罗马化处理;步骤S2、将预处理完成的维吾尔语料输入至Transformer翻译模型中,进行翻译;步骤S3、输出翻译结果;所述步骤S2中Transformer翻译模型构建方法如下:步骤S2.1、将获取的汉维双语平行语料分为中文预处理阶段和维吾尔语预处理阶段,分别进行预处理;具体地,步骤S2.2、中文语料预处理;首先对输入的中文语料进行Jieba分词如下;步骤S2.2.1、对句子进行清理,将特殊字符标注为未知词性;使用基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图DAG;步骤S2.2.2、采用了动态规划查找最大概率路径,找出基于词频的最大切分组合;步骤S2.2.3、对已登录词按字典标注标识;对于未登录词,对其中的汉字采用基于汉字成词能力的隐马尔可夫模型,并使用维特比算法取得分词和标注;对其中的英文、数字给予相应标注;步骤S2.3、对进行Jieba分词后的中文语料进行字节对编码;具体地,步骤S2.3.1、准备输入的训练语料;步骤S2.3.2、确定期望的subword词表大小;步骤S2.3.3、将单词拆分为字节序列,并在末尾添加后缀“w”,统计单词频率;所述subword的粒度是字节;步骤S2.3.4、统计每一个连续字节对的出现频率,选择最高频者合并成新的subword;步骤S2.3.5、当合并后的subword词表大小满足步骤S2.3.2期望或下一个最高频字节出现频率为1时,结束合并过程,完成字节对编码;步骤S2.4、维吾尔语料预处理;根据步骤S1.1-S1.2,获取罗马化后的维吾尔语料;将获取的维吾尔语料采用步骤S2.3所述字节对编码方法进行编码,完成预处理;步骤S2.5、采用Transformer模型对预处理后的汉维语料进行模型构建及训练;所述Transformer模型包括编码器和解码器;在编码器的主层中,每一个层包括两个子层,其中第一子层是含有自注意机制的层,第二子层是全连接的前馈神经网络层;每一个子层的输出都进行残差连接和归一化操作;所述编码器的每一个层EL,其中第一个子层的输出和第二个子层的输出计算如下: 其中,LayerNorm·是归一化函数;attention·代表自注意机制;FC·代表全连接前馈神经网络层;分别代表从第L-1个编码层得到的三个需要学习的向量,具体地, FCX=max0,XW[1]+b[1]W2+b[2]其中Q、K、V是Transformer模型需要学习的三个参数向量;dk、α和β为预设参数;μ代表输入向量X的均值,σ代表输入向量X的标准差;W和b是需要训练的权重和偏置参数,在实验开始阶段随机初始化;ε为指定小数;所述解码器每个层中包括第一子层第二子层和第三子层所述第三子层为掩码的多头注意机制层;对于每一个子层的输出计算如下: 其中,代表从第L-1个解码器层转换得到的参数向量;和由编码器最后一层得到;解码器第二子层结果用于生成最终的输出序列。

全文数据:

权利要求:

百度查询: 南京大学 一种基于罗马化维吾尔语的神经机器翻译系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。