买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于编辑距离和编辑时间的译后编辑工作量评估方法_李梅;上海一者信息科技有限公司_202310094053.3 

申请/专利权人:李梅;上海一者信息科技有限公司

申请日:2023-02-03

公开(公告)日:2023-10-27

公开(公告)号:CN116956945A

主分类号:G06F40/51

分类号:G06F40/51;G06Q20/14

优先权:

专利状态码:在审-实质审查的生效

法律状态:2023.11.14#实质审查的生效;2023.10.27#公开

摘要:本发明公开了一种基于编辑距离和编辑时间的译后编辑工作量评估方法,涉及智能评估技术领域,包括以下步骤:文本特征拼接、文本特征分词、获取单词向量表征、构造一个6层12头自注意力层的编码器、获取句子级别隐藏向量和预测译后编辑时间和编辑距离。效果是预测出所需要的编辑时间和编辑距离,用户可以根据编辑时间和编辑距离统筹分配译后编辑工作,对于编辑距离大,编辑时间长的机翻译文投入较多精力,对于编辑距离小,编辑时间短的机翻译文投入较少精力,有利于提高译后编辑工作效率,同时为译后编辑工作计价提供参考。

主权项:1.一种基于编辑距离和编辑时间的译后编辑工作量评估方法,其特征在于,包括以下步骤:步骤一,文本特征拼接;获取机翻引擎类型mt、源语类型langsrc、目标语类型langtgt、源语文本textsrc和目标语机翻译文文本特征texttgt,将这5个特征使用特殊终止符号“[SEP]”拼接成一个文本特征字符串text,字符串起始位置插入特殊起始符号“[CLS]”,字符串末尾位置插入特殊终止符号“[SEP]”,文本特征拼接公式如下:text=[CLS]+mt+[SEP]+langsrc+[SEP]+langtgt+[SEP]+textsrc+[SEP]+texttgt+[SEP];步骤二,文本特征分词,使用分隔符对原文和译文文本特征进行分词,得到文本分词后单词或者字符的集合TOKENS;步骤三:获取单词向量表征;1将TOKENS中的每个单词或者字符映射成768维的词向量,公式为wei=Embeddingtokeni,其中,tokeni是第i个单词或者字符,wei是第i个单词或者字符的词向量,Embedding为可训练的嵌入权重;2将每个单词或字符的位置映射成768维的位置向量,公式为pei=Embeddingposi,其中,posi是第i个单词或者字符的位置,pei是第i个单词或者字符的位置向量,Embedding为可训练的嵌入权重;3将词向量和位置向量进行相加和正则化处理,得到单词级别的单词向量表征,公式为ei=wei+pei,E=Layernorm[e1,e2,e3,...,et],其中,ei是第i个单词或者字符的向量表征,E是t个单词或者字符向量表征的集合,并进行正则化处理,步骤四:构造一个6层12头自注意力层的编码器,每个自注意力层是由输入向量部分、12头的QKV向量生成部分、注意力计算部分、输出单词隐藏向量部分组成;步骤五:获取句子级别隐藏向量,将所有的单词或者字符的隐藏向量进行池化操作,此处池化操作为加法运算,生成一个768维向量,即为句子级别隐藏向量htext,其中是第i个单词或者字符的最后一层隐藏向量,htext是句子级别的文本整体隐藏向量表征,步骤六:预测译后编辑时间和编辑距离;1以句子级别的文本整体隐藏向量表征htext作为译后编辑时间预测模块的输入向量,接入2层全连接层和正则化层,最后输出标量,作为译后编辑时间time,time=LayernormhtextWtime1Wtime2,其中Wtime1是第一层全连接层权重,Wtime2是第二层全连接层权重,time是译后编辑时间标量,上述W均为可训练的任意权重;2以句子级别的文本整体隐藏向量表征htext作为译后编辑距离预测模块的输入向量,接入2层全连接层和正则化层,最后输出标量,作为译后编辑距离distance,distance=LayernormhlextWdistance1Wdistance2,其中Wdistance1是第一层全连接层权重,Wdistance2是第二层全连接层权重,distance是译后编辑距离标量,上述W均为可训练的任意权重。

全文数据:

权利要求:

百度查询: 李梅;上海一者信息科技有限公司 一种基于编辑距离和编辑时间的译后编辑工作量评估方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。