首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于架构搜索和自知识蒸馏的学习基因继承方法_东南大学_202311232774.2 

申请/专利权人:东南大学

申请日:2023-09-22

公开(公告)日:2024-04-16

公开(公告)号:CN117195951B

主分类号:G06N3/042

分类号:G06N3/042;G06N3/0464;G06N3/045;G06N3/048;G06N3/086;G06N3/084;G06V10/774;G06V10/778;G06V10/764;G06V10/82

优先权:

专利状态码:有效-授权

法律状态:2024.04.16#授权;2023.12.26#实质审查的生效;2023.12.08#公开

摘要:本发明提供一种基于架构搜索和自知识蒸馏的学习基因继承方法,为后代网络搭建超网络;随机选取增强后的数据输入超网络和祖先网络;计算超网络与祖先网络特征图的差异来更新超网络的参数;从超网络中搜索相似度最高的后代网络架构。随机选取少量下游任务样本增强后输入后代网络,输出样本类别预测概率;输出后代网络中继承学习基因的层和未继承学习基因的层的特征图的相似度来蒸馏学习基因;利用分类和相似度损失更新后代网络。本发明方法即使在噪声数据上也具有优秀的分类性能;和随机初始化方法相比,在达到相似的分类精度时,需要更少的分类数据;在少数精细标注的数据条件下,本发明方法能快速训练自动生成的后代网络使其具有较高的分类性能。

主权项:1.一种基于架构搜索和自知识蒸馏的学习基因继承方法,其特征在于,包括如下步骤:为后代网络中没有继承学习基因的层设计可供选择的卷积操作,按顺序搭建超网络;随机从训练祖先网络的源数据中选取增强后的样本,作为超网络和祖先网络的输入,超网络输出卷积操作产生的特征图,与祖先网络输出的特征图计算相似度来更新超网络的参数;选择与祖先网络输出的特征图具有最高相似度的卷积操作构建后代网络;随机从下游任务的数据集中选取样本增强后作为后代网络的输入,输出对数据样本类别预测的概率;计算后代网络中继承学习基因的层和没有继承学习基因的层输出的特征图的相似度,用于蒸馏学习基因的知识;利用分类损失函数和计算相似度的损失函数更新后代网络;包括如下具体步骤:步骤S1:随机从数据集中选取增强后的数据样本,训练具有大量参数的祖先网络按照祖先网络中每一操作块梯度的变化情况,将最后3个操作块提取为可以被继承的学习基因层,这之前的层被称为非学习基因层;增强的方式为:在训练环节,对于CIFAR100数据集,采取随机裁剪样本成长宽均为32、随机水平翻转的增强方式,对于ImageNet-Tiny数据集,采取调整样本长宽为224、随机裁剪和随机水平翻转的增强方式;在测试环节,对于CIFAR100数据集样本不进行数据增强的操作;对于ImageNet-Tiny数据集,只将其中样本的长宽调整为224;步骤S2:根据祖先网络中非学习基因层输出的特征图尺寸的变化情况,将其划分为N个连续的操作块,具体为:其中为第i个操作块,符号表示相邻操作的连接;步骤S3:根据祖先网络划分的操作块的数量,搭建具有相同数量的超网络具体为其中为第i个操作块,超网络中每个操作块和祖先网络相同位置的操作块输出的特征图尺寸一致;步骤S4:随机从数据集中选取数据样本x0进行增强,固定祖先网络参数,输入到训练好的祖先网络中的第一个操作块中并输出第一个操作块产生的特征图f1,具体为随后以特征图f1作为第二个操作块的输入并输出产生的特征图f2,具体为以此类推,最终输出祖先网络每个操作块生成的特征图f1,…,fN;步骤S5:选取祖先网络操作块的输入作为超网络中对应的操作块的输入并返回超网络每个操作块生成的特征图步骤S6:根据步骤S4和步骤S5输出的特征图,以祖先网络相同操作块输出的特征图作为标签,分别计算超网络中相同位置的操作块输出的4个特征图和标签的相似度差异来计算梯度下降,以此分别更新候选卷积操作的参数,具体为: 其中,i对应祖先网络和超网络第i个操作块,为超网络第i个操作块输出的特征图;步骤S7:固定由步骤S6训练得到的超网络中每个候选卷积操作块的参数,随机从测试数据集中选取数据样本s0,输入到训练好的祖先网络中,采取和步骤S4相同的方式输出祖先网络每个操作块生成的特征图f1,…,fN;步骤S8:采取和步骤S5相同的方式在采样的测试数据s0上,输出超网络每个操作块生成的特征图步骤S9:在测试数据s0上,利用步骤S6中计算特征图相似度差异的损失函数衡量超网络每个操作块下候选卷积操作块和祖先网络对应位置操作块生成的特征图f1,…,fN的差异,选择差异最小的候选卷积操作块为后代网络的层;步骤S10:将从祖先网络中提取到的学习基因层继承到后代网络中,构建被学习基因层初始化的后代网络层步骤S11:将所有被选择的候选卷积操作块按顺序组合,形成后代网络的非学习基因层,将这些非学习基因层与从祖先网络中提取到的学习基因层按前后顺序组合,构成后代网络的特征提取层,最后在后代网络的特征提取层后组合全连接层FC,形成完整的后代网络具体为:步骤S12:随机从下游任务数据集中选取少量训练数据x,yc,其中yc是输入数据x的所属类别标签,作为后代网络的输入,训练后代网络的下游任务数据集和训练祖先网络超网络的数据集不一致且没有交集,输出对训练数据样本类别预测的概率和后代网络特征提取层中产生的特征图o1,…,oN,oN+1: 步骤S13:对于训练数据x,将后代网络预测的类别概率与标签yc做交叉熵损失,计算分类损失函数,所属的分类损失函数具体为: 其中log表示对数函数;步骤S14:为后代网络的每个非学习基因层设计额外模块B1,…,BN用来输出与olg大小一致的特征图,将由非学习基因层输出的特征图o1,…,oN分别输入到对应的额外模块B1,…,BN中,输出特征图o'1,…,o'N,具体为:o'i=Bioi,i∈[1,N];步骤S15:将由额外模块输出的特征图o’1,…,o’N分别与由学习基因层输出的特征图oN+1计算相似度差异,计算的公式为: 步骤S16:将步骤S13获得的分类损失函数和步骤S14获得的计算相似度差异损失函数整合,计算总体损失函数,表达式如下: 其中,α是超参数,用来调整两种损失的权重大小;步骤S17:利用总体损失函数计算梯度下降,以此更新后代网络的参数。

全文数据:

权利要求:

百度查询: 东南大学 一种基于架构搜索和自知识蒸馏的学习基因继承方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。