【发明授权】一种基于神经翻译的双向解码自动语法改错模型_北京先声智能科技有限公司_201910010480.2

申请/专利权人：北京先声智能科技有限公司

申请日：2019-01-04

公开（公告）日：2023-07-04

公开（公告）号：CN109829172B

主分类号：G06F40/58

分类号：G06F40/58;G06F40/253

优先权：

专利状态码：有效-授权

法律状态：2023.07.04#授权;2019.07.09#实质审查的生效;2019.05.31#公开

摘要：本发明公开了一种基于神经翻译的双向解码自动语法改错模型，其技术方案要点是包括编码器、双向解码器、注意力机制和目标函数，所述编码器为一种由多层单双向循环神经网络构成的结构，编码字母级别的语义信息，所述双向解码器为一个多层循环神经网络，通过注意力机制连接编码器，以单词级别逐词解码生成句子，所述注意力机制用于自然语言处理、图像识别及语音识别的各种不同类型的深度学习任务中，所述目标函数为改错模型的具体参数设置。本发明的一种基于神经翻译的双向解码自动语法改错模型采用了字母级别的编码器，来解决由于大量拼写错误导致的OOV问题。

主权项：1.一种基于神经翻译的双向解码自动语法改错模型，其特征在于：包括编码器、双向解码器、注意力机制和目标函数，所述编码器为字母级别编码器,为一种由多层单双向循环神经网络构成的结构，编码字母级别的语义信息，所述双向解码器为一个多层循环神经网络，通过注意力机制连接编码器，以单词级别逐词解码生成句子，所述注意力机制用于自然语言处理、图像识别及语音识别的各种不同类型的深度学习任务中,所述目标函数为改错模型的具体参数设置；其中，所述注意力机制采用全局的梁氏注意力LuongAttention机制，其表示方式为：其中，ht是解码器隐状态，hs是编码器第s个输出，s＝1,2,…,N；其中，所述双向解码器在以单词级别逐词解码生成句子的过程，包括：正向解码和反向解码，所述双向解码器用于语法改错。

全文数据：一种基于神经翻译的双向解码自动语法改错模型技术领域本发明涉及一种基于神经翻译的双向解码自动语法改错模型。背景技术自动语法改错GrammaticalErrorCorrection，GEC主要有基于机器翻译、基于语言模型、基于分类模型等方法。其中目前效果最佳的是基于机器翻译模型的方法，该方法的原理是把需要进行纠正的语言作为源语言，把改错后的语言作为目标语言的翻译过程。基于词组的统计翻译模型Phrase-basedModel是主流的方法之一。该方法先在训练数据上用IBMModel找出源语言的词组与目标语言词组之间的对应关系，并统计出相应的词组对的概率，然后在语言模型的支持下完成翻译过程。在公开的测试数据集上，比起非机器翻译的模型，性能有了很大的提升。随着基于注意力机制的编码器解码器模型encoder-decoder对机器翻译效果的巨大提升，该方法也被运用于GEC任务。在有大量平行语料的支持下，目前基于卷积神经网络编码的神经翻译模型与Transformer，在公开数据集上超过了基于统计翻译的模型。目前，基于编码器解码器模型的自动语法改错系统，主要有字母级别的编码器解码器结构与单词级别的编码器解码器结构。然而，字母级别的语义表征虽然可以很好的解决Out-Of-VocabularyOOV问题，但其对于深层语义的表征要弱于单词级别的，在GEC问题中，纯粹的字母级别编码效果差于单词级别的GEC系统。虽然单词级别的语义表征比起字母级别的语义表征可以更好地捕捉深层语义，但是由于GEC问题中，源语言会有大量的拼写错误，导致严重的OOV、词汇分布稀疏等问题，需要先做拼写校正才能取得较好的效果。目前主流的GEC系统中，解码过程采用是循环神经网络结合注意力机制，顺序逐词解码的过程，有正向按照句子顺序解码、反向按照从句子最后一词到句子第一个词的顺序解码。在语法改错任务中，有的错误需要正向解码如：Hehasgotoschool，根据has推理出后面一个词应该用完成时gone；而有时逆向解码更加匹配，如：Ihaveaapple，根据apple推理出定冠词需要用an。有相关的工作采用了多轮纠错，正向解码与逆向解码交替进行，来解决该问题。多轮纠错可以有效提高召回率Recall，但会降低精准率Precision。而在GEC这个任务中，用户对于精准率更加敏感。发明内容针对现有技术存在的不足，本发明的目的在于提供一种采用了字母级别的编码器，来解决由于大量拼写错误导致的OOV问题的基于神经翻译的双向解码自动语法改错模型。为实现上述目的，本发明提供了如下技术方案：一种基于神经翻译的双向解码自动语法改错模型，包括编码器、双向解码器、注意力机制和目标函数，所述编码器为一种由多层单双向循环神经网络构成的结构，编码字母级别的语义信息，所述双向解码器为一个多层循环神经网络，通过注意力机制连接编码器，以单词级别逐词解码生成句子，所述注意力机制用于自然语言处理、图像识别及语音识别的各种不同类型的深度学习任务中，所述目标函数为改错模型的具体参数设置。本发明进一步设置为：所述编码器为字母级别编码器，所述的字母级别编码器由多层循环网络构成。本发明进一步设置为：所述的字母级别编码器表示方式为：输入句子的字母序列的嵌入表示：其中N为输入长度将该Xenc0输入到编码器中：其中i＝1，2，…，L，L为编码器的层数。本发明进一步设置为：所述双向解码器采用结合注意力机制的多层RNN结构。本发明进一步设置为：所述的双向解码器中正向解码器的输入的one-hot序列：Yfw＝[y0，y1，y2，...，yM]，相应的词向量表示为ωjw＝[w0，w1，w2，...，wM]，其中Attentionfw表示正向注意力函数下文详述，hjfw正向隐状态，XencL是编码器的输出，Wprojfw是投影矩阵，由训练得到，pjfw是输出的概率分布，yjfw表示的概率，j＝1，2，…，M。本发明进一步设置为：所述的双向解码器中反向解码器的one-hot输入序列：相应的词向量表示为ωbw＝wM+1，wM，wM-1，...，w1]；其中wM+1＝w0，为句子的初始输入；其中Attentionbw表示反向注意力函数下文详述，hjbw反向隐状态，XencL是编码器的输出，Wprojbw是投影矩阵，由训练得到，pjbw是输出的概率分布，yjbw表示的概率，j＝M，M-1，…，1。本发明进一步设置为：所述注意力机制采用全局的LuongAttention机制，其表示方式为：其中ht是解码器隐状态，hs是编码器第s个输出，s＝1，2，…，N。本发明进一步设置为：所述目标函数包括正向损失函数、反向损失函数、Kullback-Leibler散度和总目标函数。本发明进一步设置为：所述的正向损失函数为：所述的反向损失函数为：所述的Kullback-Leibler散度为：所述的总目标函数为：其中，a，b，c∈[0，1]，a+b+c＝1。本发明进一步设置为：θenc为编码器的参数，为正向注意力机制的参数，为正向解码器参数，为反向注意力参数，为反向解码器参数。本发明具有下述优点：采用了字母级别的编码器，来解决由于大量拼写错误导致的OOV问题；单词级别的解码器，用来更好地捕捉深层语义信息。解码器由正向解码器与逆向解码器构成，解码过程双向解码同时进行。目标函数的设计中，除了正反向解码相应的交叉熵，另外引入Kullback-Leibler散度来使正反向解码得到的概率分布互相逼近。附图说明图1为本发明的模型结构图。具体实施方式参照图1所示，本实施例的一种基于神经翻译的双向解码自动语法改错模型，包括编码器、双向解码器、注意力机制和目标函数，所述编码器为一种由多层单双向循环神经网络构成的结构，编码字母级别的语义信息，所述双向解码器为一个多层循环神经网络，通过注意力机制连接编码器，以单词级别逐词解码生成句子，所述注意力机制用于自然语言处理、图像识别及语音识别的各种不同类型的深度学习任务中，所述目标函数为改错模型的具体参数设置。所述编码器为字母级别编码器，所述的字母级别编码器由多层循环网络构成。所述的字母级别编码器表示方式为：输入句子的字母序列的嵌入表示：其中N为输入长度将该Xenc0输入到编码器中：其中i＝1，2，…，L，L为编码器的层数。所述双向解码器采用结合注意力机制的多层RNN结构。所述的双向解码器中正向解码器的输入的one-hot序列：Yfw＝[y0，y1，y2，...，yM]，相应的词向量表示为ωfw＝[w0，w1，w2，...，wM]，其中Attentionfw表示正向注意力函数下文详述，hjfw正向隐状态，XencL是编码器的输出，Wprojfw是投影矩阵，由训练得到，pjfw是输出的概率分布，yjfw表示的概率，j＝1，2，…，M。所述的双向解码器中反向解码器的one-hot输入序列：相应的词向量表示为ωbw＝[wM+1，wM，wM-1，...，w1]；其中wM+1＝w0，为句子的初始输入；其中Attentionbw表示反向注意力函数下文详述，hjbw反向隐状态，XencL是编码器的输出，Wprojbw是投影矩阵，由训练得到，pjbw是输出的概率分布，yjbw表示的概率，j＝M，M-1，…，1。所述注意力机制采用全局的LuongAttention机制，其表示方式为：其中ht是解码器隐状态，hs是编码器第s个输出，s＝1，2，…，N。所述目标函数包括正向损失函数、反向损失函数、Kullback-Leibler散度和总目标函数。所述的正向损失函数为：所述的反向损失函数为：所述的Kullback-Leibler散度为：所述的总目标函数为：其中，a，b，c∈[0，1]，a+b+c＝1。θenc为编码器的参数，为正向注意力机制的参数，为正向解码器参数，为反向注意力参数，为反向解码器参数。技术效果表1GEC任务的主要评价指标为M2与GLEU，在先声GEC测试集上，与单向系统相比，该双向解码的方法在M2与GLEU两个指标上均取得了显著的提高。1.编码器与解码器的RNN结构可以是GRU、LSTM等变体，编码器也可以采用卷积神经网络进行编码。2.目标函数中的Kullback-Leibler散度也可由EuclideanDistance，CosineDistance等替代。3.LuongAttention可以由其它注意力机制，如BahdanauAttention等。以上所述仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

权利要求：1.一种基于神经翻译的双向解码自动语法改错模型，其特征在于：包括编码器、双向解码器、注意力机制和目标函数，所述编码器为一种由多层单双向循环神经网络构成的结构，编码字母级别的语义信息，所述双向解码器为一个多层循环神经网络，通过注意力机制连接编码器，以单词级别逐词解码生成句子，所述注意力机制用于自然语言处理、图像识别及语音识别的各种不同类型的深度学习任务中，所述目标函数为改错模型的具体参数设置。2.根据权利要求1所述的一种基于神经翻译的双向解码自动语法改错模型，其特征在于：所述编码器为字母级别编码器，所述的字母级别编码器由多层循环网络构成。3.根据权利要求2所述的一种基于神经翻译的双向解码自动语法改错模型，其特征在于：所述的字母级别编码器表示方式为：输入句子的字母序列的嵌入表示：其中N为输入长度将该Xenc0输入到编码器中：其中i＝1，2，…，L，L为编码器的层数。4.根据权利要求1所述的一种基于神经翻译的双向解码自动语法改错模型，其特征在于：所述双向解码器采用结合注意力机制的多层RNN结构。5.根据权利要求4所述的一种基于神经翻译的双向解码自动语法改错模型，其特征在于：所述的双向解码器中正向解码器的输入的one-hot序列：Yfw＝[y0，y1，y2，...，yM]，相应的词向量表示为ωfw＝[w0，w1，w2，...，wM]，其中Attentionfw表示正向注意力函数下文详述，hjfw正向隐状态，XencL是编码器的输出，Wprojfw是投影矩阵，由训练得到，pjfw是输出的概率分布，yjfw表示的概率，j＝1，2，…，M。6.根据权利要求4所述的一种基于神经翻译的双向解码自动语法改错模型，其特征在于：所述的双向解码器中反向解码器的one-hot输入序列：相应的词向量表示为ωbw＝[wM+1，wM，wM-1，...，w1]；其中wM+1＝w0，为句子的初始输入；其中Attentionbw表示反向注意力函数下文详述，hjbw反向隐状态，XencL是编码器的输出，Wprojbw是投影矩阵，由训练得到，pjbw是输出的概率分布，yjbw表示的概率，j＝M，M-1，…，1。7.根据权利要求1所述的一种基于神经翻译的双向解码自动语法改错模型，其特征在于：所述注意力机制采用全局的LuongAttention机制，其表示方式为：其中ht是解码器隐状态，hs是编码器第s个输出，s＝1，2，…，N。8.根据权利要求1所述的一种基于神经翻译的双向解码自动语法改错模型，其特征在于：所述目标函数包括正向损失函数、反向损失函数、Kullback-Leibler散度和总目标函数。9.根据权利要求8所述的一种基于神经翻译的双向解码自动语法改错模型，其特征在于：所述的正向损失函数为：所述的反向损失函数为：所述的Kullback-Leibler散度为：所述的总目标函数为：其中，a，b，c∈[0，1]，a+b+c＝1。10.根据权利要求9所述的一种基于神经翻译的双向解码自动语法改错模型，其特征在于：θenc为编码器的参数，为正向注意力机制的参数，为正向解码器参数，为反向注意力参数，为反向解码器参数。

百度查询：北京先声智能科技有限公司一种基于神经翻译的双向解码自动语法改错模型

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种带有调节机构的抗震支架_陕西开天实业有限公司_202322564448.3

下一篇：一种多角度可调式监控器_杭州阳宁实业有限公司_202322553745.8

相关技术

一种带有调节机构的抗震支架_陕西开天实业有限公司_202322564448.3

一种多角度可调式监控器_杭州阳宁实业有限公司_202322553745.8

一种建筑施工场地用废水处理装置_合肥翊安建筑工程有限公司_202322586658.2

一种加强型装配式钢结构节点_广西建设职业技术学院_202322606607.1

一种具有伸缩式笔盖功能的硅胶笔_富东新材料科技(东莞)有限公司_202322580378.0

一种房屋建设排水结构_安徽春源建设工程有限公司_202322621808.9

一种用于UV打印机的厚度调节机构_江苏绘智数码科技有限公司_202322395411.2

一种机制砂破碎设备_河北雄安安好信息科技有限公司_202322563163.8

一种韭菜种植浸泡催芽装置_马鞍山市怡和园农业发展股份有限公司_202322402443.0

一种试管收纳装置_重庆优希贝乐生物科技有限公司_202322397939.3

浓缩机物料预处理设备_淮北市宇达矿山机械有限公司_202322524957.3

一种具有快装结构的液晶显示屏_深圳市众投微电子科技有限公司_202322542428.6

自动相关技术

自动对接装置及自动对接设备_湖南易高智能装备有限公司_202322564918.6

一种自动面板屏自动点亮检测设备_深圳芯通互联科技有限公司_202322073234.6

自动撕膜装置及自动撕膜方法_江苏长电科技股份有限公司_202410012169.2

自动撕膜机构和自动撕膜设备_华显光电技术(惠州)有限公司_202322370520.9

自动化剪模自动导滑机构_鑫鸿交通工业(安徽)有限公司_202321903861.1

自动转向操纵系统和自动转向操纵方法_丰田自动车株式会社_202110806432.1

自动混合加料装置_江苏多聚新材料科技有限公司_202322729866.3

自动冲裁装置_珠海市立胜机械有限公司_202410197831.6

自动质粒提取_艾克斯普莱斯生物制药公司_202280059945.3

立式自动油皮机_陈文山_201910737566.5

解码相关技术

解码方法、解码系统、电子设备及可读存储介质_北京象帝先计算技术有限公司_202410160588.0

多视图解码器_GE视频压缩有限责任公司_202410125844.2

多视图解码器_GE视频压缩有限责任公司_202410127001.6

多视图解码器_GE视频压缩有限责任公司_202410127035.5

图像编解码方法和装置_华为技术有限公司_202211350403.X

多视图解码器_GE视频压缩有限责任公司_202410125863.5

选择联合均衡和解码模型_联想(新加坡)私人有限公司_202280063182.X

图像编解码方法和装置_华为技术有限公司_202211349108.2

多视图解码器_GE视频压缩有限责任公司_202410124092.8

编码方法及其设备以及解码方法及其设备_三星电子株式会社_202410289877.0

双向相关技术

双向磁力吸附PCR模块_上海何因生物科技有限公司_202322523109.0

一种双向移动装置_北京安科慧生科技有限公司_202211274160.6

一种双向绞线机_惠州市骅鹰电子科技有限公司_202322332868.9

双向可扩展浮动可调式夹具_浙江西子势必锐航空工业有限公司_202111569251.8

一种双向冲铆装置_亿和精密工业(苏州)有限公司_201910326335.5

一种双向滑动连接结构_佛山科学技术学院_202010088885.0

一种双向夹持斜口钳_烟台瑞源电子科技有限公司_202322710656.X

一种双向无线投屏器_深圳梦派科技集团有限公司_202322035949.2

一种双向加强型土工格栅_肥城联谊工程塑料有限公司_202320484319.0

自动可换向双向水眼磨鞋_中国石油天然气集团有限公司_202010493548.X

龙图腾网&IPTOP

【发明授权】一种基于神经翻译的双向解码自动语法改错模型_北京先声智能科技有限公司_201910010480.2

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务