申请/专利权人:广州欢聚时代信息科技有限公司
申请日:2021-05-21
公开(公告)日:2024-02-02
公开(公告)号:CN113255337B
主分类号:G06F40/247
分类号:G06F40/247;G06F40/289;G06F40/216;G06F40/58;G06N3/08
优先权:
专利状态码:有效-授权
法律状态:2024.02.02#授权;2021.08.31#实质审查的生效;2021.08.13#公开
摘要:本申请公开一种词表构建方法、机器翻译方法及其装置、设备与介质,所述词表构建方法包括:对原语料进行切词,将切词所得词组构造为语料仓库,该语料仓库包含多个中文词组及非中文词组;将所述语料仓库中的每个非中文词组以字符为单位切分替换为多个非中文词组;根据所述语料仓库构造词表,所述词表储存所述语料仓库中各个词组及其所出现的词频之间的对应关系数据,各词组之间按其词频降序排序;裁剪词表,将词频排序靠后的不满足预设条件的部分词组从词表中移除,以使词表适于训练机器翻译神经网络模型。本申请能有效优化用于训练机器翻译神经网络模型的词表,构造大小适中的词表,降低词表的占用内存,同时提升神经网络模型的训练及翻译效率。
主权项:1.一种词表构建方法,其特征在于,包括如下步骤:对原语料进行切词,将切词所得词组构造为语料仓库,该语料仓库包含多个中文词组及非中文词组;将所述语料仓库中的每个非中文词组以字符为单位切分替换为多个非中文词组;根据所述语料仓库构造词表,所述词表储存所述语料仓库中各个词组及其所出现的词频之间的对应关系数据,各词组之间按其词频降序排序;裁剪所述词表,将词频排序靠后的不满足预设条件的部分词组从词表中移除,以使所述词表适于训练机器翻译神经网络模型。
全文数据:
权利要求:
百度查询: 广州欢聚时代信息科技有限公司 词表构建方法、机器翻译方法及其装置、设备与介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。