申请/专利权人:深圳须弥云图空间科技有限公司
申请日:2023-07-06
公开(公告)日:2023-08-04
公开(公告)号:CN116542328A
主分类号:G06N5/02
分类号:G06N5/02;G06F18/21;G06F18/214
优先权:
专利状态码:有效-授权
法律状态:2023.11.10#授权;2023.08.22#实质审查的生效;2023.08.04#公开
摘要:本申请涉及机器学习技术领域,提供了一种CTR预测模型的知识蒸馏方法及装置。该方法包括:获取多个已训练好的重量级的教师模型和一个未被训练的轻量级的学生模型;将训练数据分别输入学生模型和多个教师模型,得到学生模型和多个教师模型各自的输出;利用门控模型确定多个教师模型各自的输出对应的权重,并基于多个教师模型各自的输出所对应的权重,计算多个教师模型各自的输出的加权和;基于学生模型的输出和加权和,利用目标损失函数计算损失值,并基于损失值更新学生模型的模型参数,以完成从多个教师模型到学生模型的知识蒸馏。采用上述技术手段,解决现有技术中,通过知识蒸馏得到的小规模的CTR预测模型往往使用效果不尽人意的问题。
主权项:1.一种CTR预测模型的知识蒸馏方法,其特征在于,包括:获取多个已训练好的重量级的教师模型和一个未被训练的轻量级的学生模型,其中,所述学生模型和多个教师模型均为CTR预测模型;获取训练数据,将所述训练数据分别输入所述学生模型和多个教师模型,得到所述学生模型和多个教师模型各自的输出;利用门控模型确定多个教师模型各自的输出对应的权重,并基于多个教师模型各自的输出所对应的权重,计算多个教师模型各自的输出的加权和;基于所述学生模型的输出和所述加权和,利用目标损失函数计算损失值,并基于所述损失值更新所述学生模型的模型参数,以完成从多个教师模型到所述学生模型的知识蒸馏。
全文数据:
权利要求:
百度查询: 深圳须弥云图空间科技有限公司 CTR预测模型的知识蒸馏方法及装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。