买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种多老师监督的无数据知识蒸馏方法_天翼电子商务有限公司_202211029941.9 

申请/专利权人:天翼电子商务有限公司

申请日:2022-08-25

公开(公告)日:2023-01-03

公开(公告)号:CN115564984A

主分类号:G06V10/764

分类号:G06V10/764;G06V10/82;G06N3/04;G06N3/08

优先权:

专利状态码:在审-公开

法律状态:2023.01.03#公开

摘要:本发明公开了一种多老师监督的无数据知识蒸馏方法,在不同的数据源上训练出多个大模型作为老师模型,基于迁移学习和知识蒸馏的理论在无数据的情况使用噪声生成图像,不断迭代优化图像生成质量,通过多个老师模型监督学生模型的训练,多个老师模型在输出层维度上参与监督学生模型训练。本发明在图像分类和文本分类数据集上获得较高的准确率,继而体现出本发明的有效性;在神经网络模型广泛应用的今天,神经网络的推理时间和大小是限制神经网络应用场景的主要因素,基于此,本发明能够在数据受限的情况下有效降低模型大小,同时融合多个数据源的模型知识,提高泛化能力,使神经网络能够应用到数据受限和计算受限的场景中。

主权项:1.一种多老师监督的无数据知识蒸馏方法,其特征在于,包括以下步骤:S1,在多个隐私数据源从零训练多个老师模型,损失函数使用交叉熵;老师模型在隐私数据集上面进行训练具有良好的泛化能力;S2,第一阶段,多个老师模型加载训练好的权重,冻结权重;初始化一个图像生成器,通过损失函数迭代更新图像生成器的权重;给定一组随机向量{z1,z2,···,zn},由这些向量生成的图像是{x1,x2,···,xn},其中xi=Generatorzi;将这些图像输入到教师网络中,可以得到图像的输出{y1T,y2T,···,ynT};然后通过ti=argmax计算预测标签{t1,t2,···,tn};如果Generator生成的图像与教师网络的训练数据具有相同的分布,则它们也应具有与训练数据类似的输出;因此,使用引入了一个损失,这鼓励教师网络生成的图像的输出接近一个热的类向量;通过将{t1,t2,···,tn}作为伪真值标签,将一个one-hot损失函数表示为: 其中Hcross是交叉熵损失函数;通过引入一个热损失,期望生成的图像能够以更高的概率被划分为所有的教师网络关注的一个特定类别;换句话说,我们需要的是与教师网络完全兼容的合成图像,而不是任何场景的一般真实图像;j是多个老师网络的损失求和,n是batch-size大小,i是一个batch内的所有的样本求和;将教师网络提取的特征表示为它对应于完全连接层之前的输出;如果输入图像是真实的,而不是一些随机向量,则特征映射往往会收到更高的激活值;因此,将激活损失函数定义为: ||·||1表示L1范数,j的含义同上;使用信息熵损失来衡量生成图像的类别平衡;具体而言,给定概率向量p=p1,p2,···,pk,测量p的混淆程度的信息熵计算为的值表示p拥有的信息量,当所有变量都等于1k时,信息量将取最大值;给定一组输出向量{y1T,y2T,···,ynT},其中每类生成图像的频率分布为因此,生成图像的信息熵损失定义为 整体的损失函数: S3,第二个阶段,图像生成模块相对稳定以后,初始化学生模型,固定图像生成器参数,针对学生网络使用知识蒸馏;软化概率分布如5,6所示;加入温度系数T是为了软化分布,提供更多的监督信息;最大化得到的标签和分类预测概率之间的交叉熵,多个老师网络与学生网络结构构成的知识蒸馏损失;Qi是不同的老师网络和学生网络某个分支分类器之间的知识蒸馏损失权重;Losshard是交叉熵损失,Q是蒸馏损失比例;p和q分别是老师模型的软化输出和学生模型的软化输出; S4,第三阶段是仅仅使用交叉熵对学生网络进行训练,这是为了促进模型的进一步收敛。

全文数据:

权利要求:

百度查询: 天翼电子商务有限公司 一种多老师监督的无数据知识蒸馏方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。