买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种中英文分词模型训练方法及装置_上海岩芯数智人工智能科技有限公司_202311151909.2 

申请/专利权人:上海岩芯数智人工智能科技有限公司

申请日:2023-09-07

公开(公告)日:2024-03-22

公开(公告)号:CN117744649A

主分类号:G06F40/289

分类号:G06F40/289;G06F40/216;G06F40/30;G06F16/33;G06F16/35

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.04.09#实质审查的生效;2024.03.22#公开

摘要:本申请公开了一种中英文分词模型训练方法及装置,所述方法包括:从训练文本中分别提取中文语料和英文语料;针对筛选的中文语料,采用字节对编码BPE算法实现中文词频的统计,生成中文词表M;采用传统中文分词模型对生成的中文词表M进行语义性识别和调整,生成调整后的中文词表N;针对筛选的英文语料,采用字节对编码BPE算法实现英文词频的统计,生成英文词表O;合并中文词表N和英文词表O,得到训练后的中英文分词模型。本申请采用字节对编码BPE方法,解决了生僻字导致的词表数量过多问题,采用传统中文分词模型处理BPE词频统计结果,提升了训练的中文词表的语义表达性。

主权项:1.一种中英文分词模型训练方法,其特征在于,包括如下步骤:从训练文本中分别提取中文语料和英文语料;针对筛选的中文语料,采用字节对编码BPE算法实现中文词频的统计,生成中文词表M,中文词表M储存中文语料中各个中文分词及其所出现的中文词频之间的对应关系数据,所述中文词频用于指示对应的中文分词在中文语料中出现的次数;采用传统中文分词模型对生成的中文词表M进行语义性识别和调整,生成调整后的中文词表N;针对筛选的英文语料,采用字节对编码BPE算法实现英文词频的统计,生成英文词表O,英文词表O存储英文语料中各个英文分词及其所出现的英文词频之间的对应关系数据,所述英文词频用于指示对应的英文分词在英文语料中出现的次数;合并中文词表N和英文词表O,得到训练后的中英文分词模型。

全文数据:

权利要求:

百度查询: 上海岩芯数智人工智能科技有限公司 一种中英文分词模型训练方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。