申请/专利权人:北京中科凡语科技有限公司
申请日:2023-09-26
公开(公告)日:2024-04-26
公开(公告)号:CN117933225A
主分类号:G06F40/211
分类号:G06F40/211;G06F40/58;G06F17/16;G06F40/289;G06F40/151;G06F40/194;G06F40/30;G06N3/045
优先权:
专利状态码:在审-实质审查的生效
法律状态:2024.05.14#实质审查的生效;2024.04.26#公开
摘要:一种基于多语言编码模型的句子对齐方法,包括:对原文文本和译文文本进行分句处理;按第一预设规则进行对句子进行重构,得到句子重构之后的原文句子序列和译文句子序列;第二预设规则进行文本分词预处理,将原文句子序列和译文句子序列转换为对应的词序列;将得到的词序列按第三预设规则进行句子编码处理,得到原文向量矩阵和译文向量矩阵;计算所有原文句子向量和译文句子向量间的余弦相似度,得到一个相似度得分矩阵;基于相似度得分矩阵,得到原文文本和译文文本最终的对齐结果。本发明句子重构步骤,使得在噪声较多的双语平行语料上进行句子对齐,能得到更准确的对齐结果。
主权项:1.一种基于多语言编码模型的句子对齐方法,其特征在于,包括:S100.对原文文本和译文文本进行分句处理,将原文文本和译文文本转换为对应的原文句子序列和对应的译文句子序列;S200.分别遍历原文句子序列和译文句子序列,按第一预设规则进行对句子进行重构,得到句子重构之后的原文句子序列和译文句子序列;S300.对得到的句子重构之后的原文句子序列和对应的译文句子序列,按第二预设规则进行文本分词预处理,将原文句子序列和译文句子序列转换为对应的词序列;S400.基于预训练模型LABSE,将得到的词序列按第三预设规则进行句子编码处理,得到原文向量矩阵和译文向量矩阵;S500.基于得到原文向量矩阵和译文向量矩阵,计算所有原文句子向量和译文句子向量间的余弦相似度,得到一个相似度得分矩阵;S600.基于相似度得分矩阵,获取一条从左上到右下的对齐路径,使得相似度得分之和最大,得到原文文本和译文文本最终的对齐结果。
全文数据:
权利要求:
百度查询: 北京中科凡语科技有限公司 一种基于多语言编码模型的句子对齐方法和系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。