【发明公布】一种基于编辑距离和编辑时间的译后编辑工作量评估方法_李梅;上海一者信息科技有限公司_202310094053.3

申请/专利权人：李梅;上海一者信息科技有限公司

申请日：2023-02-03

公开（公告）日：2023-10-27

公开（公告）号：CN116956945A

主分类号：G06F40/51

分类号：G06F40/51;G06Q20/14

优先权：

专利状态码：在审-实质审查的生效

法律状态：2023.11.14#实质审查的生效;2023.10.27#公开

摘要：本发明公开了一种基于编辑距离和编辑时间的译后编辑工作量评估方法，涉及智能评估技术领域，包括以下步骤：文本特征拼接、文本特征分词、获取单词向量表征、构造一个6层12头自注意力层的编码器、获取句子级别隐藏向量和预测译后编辑时间和编辑距离。效果是预测出所需要的编辑时间和编辑距离，用户可以根据编辑时间和编辑距离统筹分配译后编辑工作，对于编辑距离大，编辑时间长的机翻译文投入较多精力，对于编辑距离小，编辑时间短的机翻译文投入较少精力，有利于提高译后编辑工作效率，同时为译后编辑工作计价提供参考。

主权项：1.一种基于编辑距离和编辑时间的译后编辑工作量评估方法，其特征在于，包括以下步骤：步骤一，文本特征拼接；获取机翻引擎类型mt、源语类型langsrc、目标语类型langtgt、源语文本textsrc和目标语机翻译文文本特征texttgt，将这5个特征使用特殊终止符号“[SEP]”拼接成一个文本特征字符串text，字符串起始位置插入特殊起始符号“[CLS]”，字符串末尾位置插入特殊终止符号“[SEP]”，文本特征拼接公式如下：text＝[CLS]+mt+[SEP]+langsrc+[SEP]+langtgt+[SEP]+textsrc+[SEP]+texttgt+[SEP]；步骤二，文本特征分词，使用分隔符对原文和译文文本特征进行分词，得到文本分词后单词或者字符的集合TOKENS；步骤三：获取单词向量表征；1将TOKENS中的每个单词或者字符映射成768维的词向量，公式为wei＝Embeddingtokeni，其中，tokeni是第i个单词或者字符，wei是第i个单词或者字符的词向量，Embedding为可训练的嵌入权重；2将每个单词或字符的位置映射成768维的位置向量，公式为pei＝Embeddingposi，其中，posi是第i个单词或者字符的位置，pei是第i个单词或者字符的位置向量，Embedding为可训练的嵌入权重；3将词向量和位置向量进行相加和正则化处理，得到单词级别的单词向量表征，公式为ei＝wei+pei，E＝Layernorm[e1，e2，e3，...，et]，其中，ei是第i个单词或者字符的向量表征，E是t个单词或者字符向量表征的集合，并进行正则化处理，步骤四：构造一个6层12头自注意力层的编码器，每个自注意力层是由输入向量部分、12头的QKV向量生成部分、注意力计算部分、输出单词隐藏向量部分组成；步骤五：获取句子级别隐藏向量，将所有的单词或者字符的隐藏向量进行池化操作，此处池化操作为加法运算，生成一个768维向量，即为句子级别隐藏向量htext，其中是第i个单词或者字符的最后一层隐藏向量，htext是句子级别的文本整体隐藏向量表征，步骤六：预测译后编辑时间和编辑距离；1以句子级别的文本整体隐藏向量表征htext作为译后编辑时间预测模块的输入向量，接入2层全连接层和正则化层，最后输出标量，作为译后编辑时间time，time＝LayernormhtextWtime1Wtime2，其中Wtime1是第一层全连接层权重，Wtime2是第二层全连接层权重，time是译后编辑时间标量，上述W均为可训练的任意权重；2以句子级别的文本整体隐藏向量表征htext作为译后编辑距离预测模块的输入向量，接入2层全连接层和正则化层，最后输出标量，作为译后编辑距离distance，distance＝LayernormhlextWdistance1Wdistance2，其中Wdistance1是第一层全连接层权重，Wdistance2是第二层全连接层权重，distance是译后编辑距离标量，上述W均为可训练的任意权重。

全文数据：

权利要求：

百度查询：李梅;上海一者信息科技有限公司一种基于编辑距离和编辑时间的译后编辑工作量评估方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种新型大流量流量计设备_江苏沃得高新农业装备有限公司_202311847728.3

下一篇：一种含镁催化剂载体及其制备方法与应用_中国石油化工股份有限公司_202211301813.5

相关技术

一种新型大流量流量计设备_江苏沃得高新农业装备有限公司_202311847728.3

一种含镁催化剂载体及其制备方法与应用_中国石油化工股份有限公司_202211301813.5

一种高效降色度的产絮芽孢杆菌及其选育方法和复配菌剂_重庆港力环保股份有限公司_202410126979.0

一种卫星高频次海面风估测方法_国家卫星气象中心(国家空间天气监测预警中心)_202410120101.6

用于齿部加工的设备、刀具头和齿部加工机器_雷肖尔股份公司_202280062247.9

一种利用滇黄精薄层细胞的组织培养方法及其应用_中国科学院昆明植物研究所_202410024960.5

搪瓷搅拌釜修补方法及搪瓷搅拌釜_中国石油化工股份有限公司_202211253080.2

一种光伏组件热斑测试方法_英利能源发展有限公司_202410149506.2

智能手表的数据防丢失方法及装置_深圳叩鼎科技有限责任公司_202410121084.8

烟气浓度可调的气溶胶生成系统及控制方法_河南中烟工业有限责任公司_202410193979.2

一种多模态融合的纺织品染色配方推荐方法及装置_广州工业智能研究院_202410024311.5

一种2，5-二溴对苯二甲酸二乙酯复合TiO₂·H₂O的制备方法及应用_贵州大学_202410041534.2

译相关技术

基于实体词属性特征和回译的中文金融文本数据增强方法_之江实验室_202210724689.7

基于逆向差异识别的人机共译方法与系统_语联网(武汉)信息技术有限公司_202010508277.0

翻译推荐方法、译后编辑模型的训练方法和相关装置_腾讯科技(深圳)有限公司_202211041422.4

一种基于非译预处理的翻译方法_语联网(武汉)信息技术有限公司_202311324024.8

机器翻译译后的术语翻译方法、装置、设备及存储介质_北京中科凡语科技有限公司_202110938432.7

一种中英文随机对译的趣味课堂器具_湖南环境生物职业技术学院_202311318917.1

一种点写点读扫译摘录的多功能点写装置_珠海凯芯微电子科技有限公司_202321652296.6

基于回译的翻译模型训练方法及装置_深圳须弥云图空间科技有限公司_202310814082.2

一种基于编辑距离和编辑时间的译后编辑工作量评估方法_李梅_202310094053.3

基于专属机翻引擎训练的人机共译系统与方法_语联网(武汉)信息技术有限公司_202010508347.2

编辑相关技术

一种基因编辑效率提高的引导碱基编辑系统及其应用_北京市农林科学院_202011621689.1

一种适用于盲人操作手机编辑的编辑系统_南京点明软件科技有限公司_202110748553.5

基因编辑组合物及其用途_上海贝斯昂科生物科技有限公司_202410051319.0

DNA编辑工具、系统及其用途_辉大(上海)生物科技有限公司_202410081243.6

信息编辑方法、装置、设备和介质_苏州盛科通信股份有限公司_202410097003.5

腺苷脱氨酶、碱基编辑器融合蛋白、碱基编辑器系统及用途_尧唐(上海)生物科技有限公司_202410261107.5

PE-P3引导编辑系统及其在基因组碱基编辑中的应用_北京市农林科学院_202011621690.4

用于编辑RNA的组合物和方法_俄勒冈健康与科学大学_201880073848.3

网上自动编辑排版设计方法及其系统_殷步九_202310368349.X

文档编辑方法、装置、电子设备及存储介质_中科世通亨奇(北京)科技有限公司_202410108614.5

时间相关技术

基于光电结合时间补偿的光纤时间同步装置及方法_天津师范大学_202210548994.5

校准飞行时间系统的方法和飞行时间系统_AMS有限公司_202410207945.4

信道占用时间(COT)结构指示_高通股份有限公司_202080057016.X

连续时间线性均衡器_成都电科星拓科技有限公司_202410191286.X

用于同步带时间戳数据的方法_菲特米公司_202280062059.6

基于时间概率攻击图的病毒攻击防御方法_中国人民解放军空军工程大学_202110256146.2

用于卫星的时间校准系统及方法_银河航天(西安)科技有限公司_202211387791.9

继电器动作时间的测量装置及其控制方法_广东电网有限责任公司_202410231202.0

一种平衡电平转换时间的方法_圣邦微电子(北京)股份有限公司_202311825696.7

一种水泥凝结时间检测装置_通辽市市场检验检测中心_202322652044.X

龙图腾网&IPTOP

【发明公布】一种基于编辑距离和编辑时间的译后编辑工作量评估方法_李梅;上海一者信息科技有限公司_202310094053.3

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务