买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于词粒度的自然语言模型的训练方法与系统_智者四海(北京)技术有限公司_202110588758.1 

申请/专利权人:智者四海(北京)技术有限公司

申请日:2021-05-28

公开(公告)日:2024-04-16

公开(公告)号:CN113326693B

主分类号:G06F40/216

分类号:G06F40/216;G06F40/126;G06F40/242;G06F40/284;G06N3/045;G06N3/09

优先权:

专利状态码:有效-授权

法律状态:2024.04.16#授权;2021.09.17#实质审查的生效;2021.08.31#公开

摘要:本公开提供了一种基于词粒度的自然语言模型的训练方法和系统,所述方法包括:根据词典将训练语料分词,所述分词的粒度为词语;根据词频,将分词的结果按照词频大小排序,分为三组词语,分别为高频词语、中频词语、低频词语;将所述三组词语嵌入向量;通过变形层进行编码与解码,得到带有浮点数的多个向量;将所述带有浮点数的多个向量通过自适应线性层,将其中概率超过阈值的向量选择为输出,并转化为预测词语;训练自然语言模型时,使用中文句子为样本数据,以及预先确定的预测词语为样本标签;使用自适应优化器训练自然语言模型,所述自适应优化器使用矩阵的低秩分解来压缩训练中产生的变量。

主权项:1.一种基于词粒度的自然语言模型的训练方法,包括:根据词典将训练语料分词,所述分词的粒度为词语;根据词频,将分词的结果按照词频大小排序,分为三组词语,分别为高频词语、中频词语、低频词语;将所述三组词语嵌入向量;通过变形层进行编码与解码,得到带有浮点数的多个向量;将所述带有浮点数的多个向量通过自适应线性层,将其中概率超过阈值的向量选择为输出,并转化为预测词语;训练自然语言模型时,使用中文句子为样本数据,以及预先确定的预测词语为样本标签;使用自适应优化器训练自然语言模型,所述自适应优化器使用矩阵的低秩分解来压缩训练中产生的变量;其中,所述自适应线性层首先只使用高频词语预测,当发现表示预测词语是中频或低频词语的第一预测概率较高时,则继续使用中频或低频词语进行预测,在得到表示预测词语是中频或低频词语的第二预测概率时,则预测词语的实际概率即为第一预测概率与第二预测概率的乘积;所述训练自然语言模型时,预加载了基于字粒度自然语言模型的权重,所述基于词粒度的自然语言模型的词权重是由组成该词的每一个字的基于字粒度的自然语言模型的字权重的和的平均值。

全文数据:

权利要求:

百度查询: 智者四海(北京)技术有限公司 一种基于词粒度的自然语言模型的训练方法与系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。