买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】基于Multi-head Attention机制的知识蒸馏的ResNext图像数据分析方法_太原理工大学_202311795597.9 

申请/专利权人:太原理工大学

申请日:2023-12-25

公开(公告)日:2024-03-22

公开(公告)号:CN117746149A

主分类号:G06V10/764

分类号:G06V10/764;G06V10/82;G06V10/44;G06N3/0464;G06N3/047;G06N3/045;G06N3/096

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.04.09#实质审查的生效;2024.03.22#公开

摘要:本发明公开了一种基于Multi‑headAttention机制的知识蒸馏的ResNext图像数据分析方法,涉及图像数据的分析和分类技术领域,具体为第一部分知识蒸馏部分,旨在训练出优秀的学生模型,第二部分是将Multi‑headAttention机制嵌入到ResNext神经网络结构中从而提高ResNext网络的分类效果,第三部分是将预处理后的图像数据输入训练好的网络模型中,让网络对其进行分析并分类,最终得到分类好的图像数据结果。本发明使得图像类的大数据经过神经网络的处理后能更加有利于使用者对于图像的识别和判断,可以减少不相关的数据,将不同类型的图像数据区分开,同类型的图像数据聚集在一块,使得在完成任务时减少大量的冗余操作,还能提高精确度,大大提高工作效率。

主权项:1.一种基于Multi-headAttention机制的知识蒸馏的ResNext图像数据分析方法,其特征在于:包括如下步骤:一、知识蒸馏:1)选择教师模型和学生模型:选择了ResNet作为教师模型,ResNet块结构具体为:数据首先进入底部的卷积层Conv,应用多个卷积核来提取特征;紧随第一个卷积层之后,有一个批量归一化层BatchNorm对卷积层的输出进行规范化处理,以稳定学习过程;之后通过ReLU激活层来接受批量归一化层的输出并应用非线性激活函数;第一个ReLU激活层之后是第二个卷积层Conv,它进一步处理数据,提取更高级的特征;第二个批量归一化层BatchNorm规范化第二个卷积层的输出;第二个ReLU激活层再次应用非线性激活;此时,第二个ReLU激活层的输出会被传递到一个加法操作节点;同时,原始输入或经过适当变换后的输入也被传递到这个加法操作节点;两者在此节点相加;加法操作之后,得到的结果通过一个ReLU激活层进行最后的非线性变换,然后输出到网络的下一部分;选择ResNext作为学生模型;ResNext分组卷积结构具体为:输入为256-din即输入特征图有256个通道;分支开始后,输入特征图被分成32条路径,基数为32,每条路径进行一系列相似的操作,这些操作被称为“transformations”,第一层卷积为:{256,1x1,4}:每条路径都开始于一个1x1的卷积层,这个层的目的是进行通道降维,将256个输入通道减少到4个,减少计算量;第二层卷积{4,3x3,4}:第一层卷积后的是一个3x3的卷积层,它在这4个通道上进行空间卷积;第三层卷积{4,1x1,256}:在第二层卷积后的是另一个1x1的卷积层,它的作用是进行通道升维,将通道数从4升回到256;之后合并分支:所有路径的输出都被合并,通过加法操作完成;每条路径的输出都相加,产生一个具有256个通道的输出特征图;最后输出{256-dout}:最后的输出特征图,它保持了与输入相同的通道数;并将ResNet训练好的权重和知识传输至ResNext模型;2)准备数据集:准备一个适用的数据集,包括图像样本以及对应的标签;从公开可用的图像分类数据集中选择一个合适的数据集,以便进行知识蒸馏的训练;所采用图像分类数据集包括CIFAR-10、CIFAR-100、ImageNet;将数据集分为两个部分:教师数据集和学生数据集,进行知识蒸馏的训练;教师数据集:这一部分数据用于训练教师模型,即ResNet,从整个数据集中随机选择一部分数据,确保教师数据集足够大以包含多个类别的样本,同时教师数据集的规模大于学生数据集,以确保教师模型具有足够的知识来传递给学生模型;学生数据集:这一部分数据用于训练学生模型,即ResNext;从剩余的数据集中选择一部分数据,作为学生数据集,学生数据集的规模小于教师数据集,但学生数据集的要求也要包含多个类别的样本,以确保学生模型能够有效地学习知识;在使用数据集进行知识蒸馏之前,进行数据预处理步骤,以确保数据的质量和一致性;这些操作包括图像的缩放、归一化、数据增强,以提高模型的训练效果和泛化能力;使教师数据集和学生数据集的标签保持一致,以确保训练时的对齐性;标签为图像对应的类别信息,使用独热编码或整数编码来表示;3)教师模型预测:使用教师模型对知识蒸馏数据集进行推理,生成教师模型的概率分布输出,用于指导学生模型;4)损失函数设计:定义适当的损失函数,将学生模型的输出与教师模型的输出进行比较,选择交叉熵损失函数: ;其中M代表类别的数量,yic代表符号函数,若样本i的真实类别等于c,则yic取1,否则取0;pic代表观测i属于类别c的预测概率;N代表样本数量;5)训练学生模型:首先,我们初始化学生模型ResNext,使用预训练的权重或随机初始化;将训练数据集的图像输入学生模型中,计算学生模型的预测;使用蒸馏损失函数计算软目标损失和硬目标损失;通过反向传播算法,将梯度传播回学生模型,以更新模型的权重参数,最小化蒸馏损失;重复以上步骤,直到学生模型的性能收敛或达到预定的停止条件;二、将Multi-headAttention机制嵌入到ResNext神经网络结构:即通过Multi-headAttention机制对ResNext网络结构进行改造,具体如下:选择ResNext的若干层或模块中,引入Multi-headAttention模块,所述Multi-headAttention模块允许网络在不同的头部heads中处理图像特征,每个头部关注不同的特征子集,这样网络同时处理多个关键特征;Multi-HeadAttention是利用多个查询模块,来平行地计算从输入信息中选取多个信息;每个注意力关注输入信息的不同部分,然后再进行拼接; ;在每个Multi-headAttention模块中,计算多个头部的注意力权重;注意力权重根据输入特征图计算,以确定哪些特征受到更多的关注;每个头部产生的特征被融合在一起,以生成具有丰富表示的新特征图;这些新特征图包含不同头部的关注信息,以增强网络的表达能力;改造后的ResNext网络保留原始的残差连接结构,确保了信息的流动和梯度的稳定性;Multi-headAttention模块与残差块相互交织,以确保网络的平衡性和稳定性;改造后的ResNext网络结构经过训练和微调,确保网络适应新的注意力机制;训练数据集和目标任务与步骤一中的ResNext模型相同;三、将预处理后的图像数据输入训练好的网络模型中,让网络对其进行分析并分类,在得到改进后的ResNext的网络后,通过预处理好的图像数据对改进后的网络进行知识蒸馏,训练到一定程度后会得到相应的权重和参数,此时模型具备了对于图像数据的分析以及分类能力,到此这个网络模型完成。

全文数据:

权利要求:

百度查询: 太原理工大学 基于Multi-head Attention机制的知识蒸馏的ResNext图像数据分析方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。