【发明授权】一种基于罗马化维吾尔语的神经机器翻译系统_南京大学_202011298243.X

导航：龙图腾网> 最新专利技术> 一种基于罗马化维吾尔语的神经机器翻译系统_南京大学_202011298243.X

申请/专利权人：南京大学

申请日：2020-11-19

公开（公告）日：2024-03-19

公开（公告）号：CN112507734B

主分类号：G06F40/58

分类号：G06F40/58;G06F40/284;G06F40/289;G06F40/242

优先权：

专利状态码：有效-授权

法律状态：2024.03.19#授权;2021.04.02#实质审查的生效;2021.03.16#公开

摘要：本发明公开了一种基于罗马化维吾尔语的神经机器翻译系统，在构建翻译系统前，对汉维双，为后续例如词对齐处理提供分好词且格式恰当的双语数据；本系统的预处理根据语料不同的特性，对语料进行不同的预处理过程，即对中文语料使用Jieba分词，并使用BPE编码继续切割单词，而对维吾尔语语料首先进行“词根+词缀”形态分词，接着对分词后的维吾尔语进行罗马化处理，最后使用BPE编码进行处理；使用Tansformer翻译模型进行翻译模型训练，得到最终翻译模型；对于翻译过程，首先同样对维吾尔语进行预处理，即“词根+词缀”分词和罗马化处理，接着使用训练好的模型翻译处理好的语料，最终将得到翻译好的汉语。

主权项：1.一种基于罗马化维吾尔语的神经机器翻译系统，其特征在于，包括以下处理步骤：步骤S1、维吾尔语料预处理；步骤S1.1、“词根+词缀”形态分词；采用有限状态自动机FSM对维吾尔语料进行切分；通过以下步骤生成后缀集：步骤S1.1.1、构造后缀集并创建根驱动的有限状态自动机FSA；步骤S1.1.2、反转FSA并获得非确定性有限状态自动机NFA；步骤S1.1.3、将NFA转换为确定性有限自动机DFA；步骤S1.2、对切分后的维吾尔语料进行罗马化处理；步骤S2、将预处理完成的维吾尔语料输入至Transformer翻译模型中，进行翻译；步骤S3、输出翻译结果；所述步骤S2中Transformer翻译模型构建方法如下：步骤S2.1、将获取的汉维双语平行语料分为中文预处理阶段和维吾尔语预处理阶段，分别进行预处理；具体地，步骤S2.2、中文语料预处理；首先对输入的中文语料进行Jieba分词如下；步骤S2.2.1、对句子进行清理，将特殊字符标注为未知词性；使用基于前缀词典实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图DAG；步骤S2.2.2、采用了动态规划查找最大概率路径,找出基于词频的最大切分组合；步骤S2.2.3、对已登录词按字典标注标识；对于未登录词，对其中的汉字采用基于汉字成词能力的隐马尔可夫模型，并使用维特比算法取得分词和标注；对其中的英文、数字给予相应标注；步骤S2.3、对进行Jieba分词后的中文语料进行字节对编码；具体地，步骤S2.3.1、准备输入的训练语料；步骤S2.3.2、确定期望的subword词表大小；步骤S2.3.3、将单词拆分为字节序列，并在末尾添加后缀“w”，统计单词频率；所述subword的粒度是字节；步骤S2.3.4、统计每一个连续字节对的出现频率，选择最高频者合并成新的subword；步骤S2.3.5、当合并后的subword词表大小满足步骤S2.3.2期望或下一个最高频字节出现频率为1时，结束合并过程，完成字节对编码；步骤S2.4、维吾尔语料预处理；根据步骤S1.1-S1.2，获取罗马化后的维吾尔语料；将获取的维吾尔语料采用步骤S2.3所述字节对编码方法进行编码，完成预处理；步骤S2.5、采用Transformer模型对预处理后的汉维语料进行模型构建及训练；所述Transformer模型包括编码器和解码器；在编码器的主层中，每一个层包括两个子层，其中第一子层是含有自注意机制的层，第二子层是全连接的前馈神经网络层；每一个子层的输出都进行残差连接和归一化操作；所述编码器的每一个层EL，其中第一个子层的输出和第二个子层的输出计算如下：其中，LayerNorm·是归一化函数；attention·代表自注意机制；FC·代表全连接前馈神经网络层；分别代表从第L-1个编码层得到的三个需要学习的向量，具体地， FCX＝max0，XW[1]+b[1]W2+b[2]其中Q、K、V是Transformer模型需要学习的三个参数向量；dk、α和β为预设参数；μ代表输入向量X的均值，σ代表输入向量X的标准差；W和b是需要训练的权重和偏置参数，在实验开始阶段随机初始化；ε为指定小数；所述解码器每个层中包括第一子层第二子层和第三子层所述第三子层为掩码的多头注意机制层；对于每一个子层的输出计算如下：其中，代表从第L-1个解码器层转换得到的参数向量；和由编码器最后一层得到；解码器第二子层结果用于生成最终的输出序列。

全文数据：

权利要求：

百度查询：南京大学一种基于罗马化维吾尔语的神经机器翻译系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种户外交流高压封闭式隔离开关_瑞芯科技(河北雄安)有限公司_202322554260.0

下一篇：一种机床零件用抛光装置_杭州盈动达精密机械有限公司_202322717477.9

相关技术

一种户外交流高压封闭式隔离开关_瑞芯科技(河北雄安)有限公司_202322554260.0

一种机床零件用抛光装置_杭州盈动达精密机械有限公司_202322717477.9

自动装盒设备_杭州永创智能设备股份有限公司_202322265646.X

配备可拆固定式导纸嘴的打印装置_长城信息股份有限公司_202322616485.4

一种纺织纱线缠绕架_江苏金銮纺织科技股份有限公司_202322120043.0

一种梳式烟夹的胶头自动组装设备_广州阿尔法精密机械有限公司_202322475952.6

一种饮料包装盒的快速消毒装置_赵唐玉玥_202322121652.8

一种勺式高精度防堵塞药剂计量添加装置_浙江威尔博环保科技有限公司_202322743530.2

一种危废行业可快速更换的水封出渣系统_渤瑞环保股份有限公司_202322016372.0

无功补偿柜柜体_广东澳江电气有限公司_202322547060.2

一种精密小磨床用物料固定装置_昆山法尔霆机电科技有限公司_202322612017.X

一种特殊持力层道路施工结构_中建六局土木工程有限公司_202023112178.5

机器翻译相关技术

台词翻译方法、装置及翻译模型训练方法、装置_北京奇艺世纪科技有限公司_202011474963.7

机器人控制装置、机器人的控制方法及机器人系统_精工爱普生株式会社_202010213963.5

基于电子终端实现翻译控制的方法及其系统、电子设备_刘于平_202010482563.4

搬运机器人_北京极智嘉科技股份有限公司_202322646491.4

工业机器人手臂_康格尼博提克斯股份公司_202111020544.0

机器人系统以及机器人的驱动方法_丰田自动车株式会社_202311354399.9

磁吸附机器人系统以及磁吸附机器人控制方法_北京博清科技有限公司_202011513317.7

移动充电机器人双电机轮系及机器人_常州大学_202321970576.1

烹饪机器人、烹饪机器人控制装置和控制方法_索尼集团公司_202080016746.5

移动机器人和控制多个移动机器人的方法_LG电子株式会社_202080022119.2

神经相关技术

基于多策略原型生成的低资源神经机器翻译方法_昆明理工大学_202210293213.2

一种多神经网络任务处理方法及装置_清华大学_202210741395.5

去模糊卷积神经网络训练方法、装置、设备及存储介质_清华大学_202111342163.4

一种基于神经网络的数据处理方法及设备_华为技术有限公司_202211277119.4

一种基于模糊神经网络的自动射孔系统_电子科技大学_202310120220.7

一种基于知识增强神经网络模型的讽刺检测方法及系统_广东外语外贸大学_202311374400.4

基于图神经网络的汉越跨语言观点对象识别分析方法_昆明理工大学_202210532418.1

一种基于正念冥想的神经反馈干预系统及方法_兰州大学_202111187018.3

基于多尺度卷积神经网络的恶意软件检测方法_玉溪师范学院_202010231067.1

基于TS模糊神经网络的MSWI炉膛温度预测方法_北京工业大学_201911252439.2

化相关技术

玻璃钢化系统_广东顺德添百利科技股份有限公司_202322321586.9

料盒自动化输送装置及料盒自动化输送系统_广汽乘用车(杭州)有限公司_202322231946.6

一种污泥脱水干化一体化设备_江苏康泰环保股份有限公司_202211272836.8

一种连续杂化凝胶长丝的陶瓷化设备_东华大学_202210326220.8

医学图像数据的可视化_西门子医疗有限公司_202010200043.X

自动化套口上领设备_内蒙古帕阑蒂科技发展有限公司_202322401589.3

样品体积的自数字化_华盛顿大学商业中心_202111601955.9

生成参数化空间音频表示_诺基亚技术有限公司_202311364414.8

非同质化代币信息提供系统_三星显示有限公司_202311339052.7

自动化水处理系统_光大环保(中国)有限公司_202322612979.5

龙图腾网&IPTOP

【发明授权】一种基于罗马化维吾尔语的神经机器翻译系统_南京大学_202011298243.X

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务