买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】文本处理模型的训练方法、文本处理方法及装置_华为技术有限公司_201910865963.0 

申请/专利权人:华为技术有限公司

申请日:2019-09-12

公开(公告)日:2024-04-12

公开(公告)号:CN112487182B

主分类号:G06F16/35

分类号:G06F16/35;G06F18/214;G06F18/241;G06N3/0442;G06N3/0455;G06N3/0464;G06N3/084

优先权:

专利状态码:有效-授权

法律状态:2024.04.12#授权;2021.03.30#实质审查的生效;2021.03.12#公开

摘要:本申请公开了人工智能领域中自然语言处理领域的文本处理模型的训练方法、文本方法以及装置,该训练方法包括:获取训练文本;将该训练文本分别输入老师模型与学生模型,得到该老师模型输出的样本数据与该学生模型输出的预测数据,其中,该老师模型与该学生模型分别包括输入层、一个或者多个中间层以及输出层,该样本数据包括该老师模型的中间层输出的样本语义特征以及输出层输出的样本标签,该预测数据包括该学生模型的中间层输出的预测语义特征以及输出层输出的预测标签;基于该样本数据以及该预测数据训练该学生模型的模型参数,得到目标学生模型。本申请的技术方案使得学生模型有效的进行知识迁移,从而提高学生模型的文本处理结果的准确率。

主权项:1.一种文本处理模型的训练方法,其特征在于,包括:获取训练文本;将所述训练文本分别输入老师模型与学生模型,得到所述老师模型输出的样本数据与所述学生模型输出的预测数据,其中,所述老师模型与所述学生模型分别包括输入层、一个或者多个中间层以及输出层,所述样本数据包括所述老师模型的中间层输出的样本语义特征以及所述老师模型的输出层输出的样本标签,所述预测数据包括所述学生模型的中间层输出的预测语义特征以及所述学生模型的输出层输出的预测标签,所述老师模型为预先训练的用于文本处理的模型;基于所述样本数据以及所述预测数据训练所述学生模型的模型参数,得到目标学生模型;其中,所述老师模型与所述学生模型为转换器Transformer模型,所述老师模型的中间层包含N个Transformer层,所述学生模型的中间层包含M个Transformer层,N为大于或等于M的正整数,所述基于所述样本语义特征与所述预测语义特征,训练所述学生模型的中间层,包括:从所述老师模型包含的N个Transformer层中选择M个Transformer层,所述M个Transformer层中每一个Transformer层包含注意力机制模块和前向网络模块;基于所述老师模型中M个Transformer层的第i个Transformer层输出的样本语义特征以及所述老师模型的第i个Transformer层包含的所述注意力机制模块中的注意力分数矩阵训练所述学生模型的第i个Transformer层,i为小于或等于M的正整数,M为大于或等于1的整数。

全文数据:

权利要求:

百度查询: 华为技术有限公司 文本处理模型的训练方法、文本处理方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。