申请/专利权人:阿里巴巴集团控股有限公司
申请日:2018-08-17
公开(公告)日:2024-03-01
公开(公告)号:CN110866407B
主分类号:G06F40/58
分类号:G06F40/58;G06F40/216;G06F40/194
优先权:
专利状态码:有效-授权
法律状态:2024.03.01#授权;2020.03.31#实质审查的生效;2020.03.06#公开
摘要:本公开提出了一种确定互译文本及文本间相似度分析方法、装置及设备。获取第一文本集合和第二文本集合,第一文本集合使用第一语言编写且被翻译为第二语言,第二文本集合使用第二语言编写,第一文本集合和第二文本集合均包括多个文本,文本中包括多个字或词;分别以第一文本集合中的各个字或词为键,以字或词所在文本的文本标识符为值,构建第一索引;分别以第二文本集合中的各个字或词为键,以字或词所在文本的文本标识符为值,构建第二索引;将第一索引和第二索引中对应于相同键的文本标识符互相组成文本对,并统计各个文本对的出现次数;以及基于文本对的出现次数,确定属于互译关系的文本。由此,可以减少计算量,提高互译文本的识别效率。
主权项:1.一种确定互译文本的方法,包括:获取第一文本集合和第二文本集合,所述第一文本集合使用第一语言编写且被翻译为第二语言,所述第二文本集合使用第二语言编写,所述第一文本集合和所述第二文本集合均包括多个文本,所述多个文本中包括多个字或词;分别以所述第一文本集合中的各个字或词为键,以所述字或词所在文本的文本标识符为值,构建第一索引;分别以所述第二文本集合中的各个字或词为键,以所述字或词所在文本的文本标识符为值,构建第二索引;将所述第一索引和所述第二索引中对应于相同键的文本标识符互相组成文本对,并统计各个文本对的出现次数;以及基于所述文本对的出现次数,确定属于互译关系的文本,其中,将所述第一索引和所述第二索引中对应于相同键的文本标识符互相组成文本对,并统计各个文本对的出现次数,包括:将对应相同键的文本的文本标识符合并在一起,以得到多个文本组,每个键对应一个文本组;统计所述多个文本组中每个文本对的出现次数,所述文本对中的两个文本标识符所对应的文本分属于不同的文本集合。
全文数据:
权利要求:
百度查询: 阿里巴巴集团控股有限公司 确定互译文本及文本间相似度分析方法、装置及设备
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。