【发明授权】降低ResNeXt模型在图片分类中过拟合现象的方法_南京大学_201910263146.8

导航：龙图腾网> 最新专利技术> 降低ResNeXt模型在图片分类中过拟合现象的方法_南京大学_201910263146.8

申请/专利权人：南京大学

申请日：2019-04-02

公开（公告）日：2020-10-09

公开（公告）号：CN109978069B

主分类号：G06K9/62(20060101)

分类号：G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101)

优先权：

专利状态码：有效-授权

法律状态：2020.10.09#授权;2019.07.30#实质审查的生效;2019.07.05#公开

摘要：本发明公开了降低ResNeXt模型在图片分类中过拟合现象的方法，包括如下步骤：步骤1，对公开数据集中的训练图片进行预处理；步骤2，基于ResNeXt网络搭建网络模型，并对ResNeXt网络进行Cropout方法的修改；步骤3，使用随机梯度下降法训练修改过后的ResNeXt网络，得到训练好的网络模型；步骤4，输入一张给定的待分类图片，使用步骤3中训练好的网络模型对其进行分类，得到最后的结果。

主权项：1.降低ResNeXt模型在图片分类中过拟合现象的方法，其特征在于，包括如下步骤：步骤1，对公开数据集中的训练图片进行预处理；步骤2，基于ResNeXt网络搭建网络模型，并对ResNeXt网络使用Cropout方法进行修改；步骤3，使用随机梯度下降法训练修改过后的ResNeXt网络，得到训练好的网络模型；步骤4，输入一张给定的待分类图片，使用步骤3中训练好的网络模型对其进行分类，得到最后的分类结果；步骤1包括：对公开数据集中的训练图片进行数据增强操作，包括随机裁剪、水平翻转、随机放缩；步骤2包括以下步骤：步骤2-1，使用基数为G的ResNeXt网络的卷积部分对训练图片进行特征提取，得到分组卷积后的G条转换路径，将转换路径的特征图记为x，其大小为H×W，H、W分别表示特征图的长和宽；步骤2-2，Cropout方法为对每条转换路径随机绑定一个随机裁剪操作，具体包括：对特征图x沿着每条边进行k个零元素的填充，将其从原始的H×W扩展为H+k×W+k大小的特征图y，在扩展后的特征图y上随机裁剪出H×W大小的特征图x′，定义在特征图x上补充k个零元素后进行随机裁剪的操作为Pk，则特征图x上的随机裁剪变换用如下公式来表示：x′＝Pkx，其中x′为随机裁剪变换后的特征图；Cropout方法包括基于ResNeXt网络的聚合变换，ResNeXt网络原始的聚合变换用如下公式表示：其中，为一个将特征图x映射为一个低维向量空间的卷积函数，∑为拼接操作，G为ResNeXt的转换路径条数，i代表第i条转换路径，为聚合变换后的特征图；则经由Cropout方法修改后的聚合变换表示为：其中为经过Cropout方法修改过的聚合变换后的新特征图；步骤2-3，将G条经由Cropout方法修改过的聚合转换路径上的特征图x′通过拼接操作合成在一起，形成一个新的特征图作为ResNeXt的下一层网络的输入数据。

全文数据：降低ResNeXt模型在图片分类中过拟合现象的方法技术领域本发明涉及深度学习技术领域，尤其涉及降低ResNeXt模型在图片分类中过拟合现象的方法。背景技术近几年深度神经网络在图片分类等多媒体研究领域发挥了巨大作用，然而人们面对的一个普遍问题就是如何使深度网络的训练更加稳定。为了解决这个问题并且进一步提高神经网络的效果，人们通常设计不同的规则来约束网络，最常见的技术就是批量归一化BN，BatchNormalization和Dropout随机失活Dropout是对具有深度结构的人工神经网络进行优化的方法，在学习过程中通过将隐含层的部分权重或输出随机归零，降低节点间的相互依赖性co-dependence从而实现神经网络的正则化regularization，降低其结构风险structuralrisk。而过拟合现象对深度网络来说仍然是个问题，它可能导致深度网络模型的泛化能力非常差。而在实际的多媒体应用中，由于训练深度网络所需要的大量数据不容易获得并且人工标注成本太大，过拟合现象更是比较严重。发明内容为了解决现有技术中图片分类问题中仍然存在的过拟合问题，本发明在ResNeXt网络模型的基础上提出了一种降低图片分类任务中过拟合现象的新方法，叫做CropoutCropout属于本发明给这个方法取的名字，只有英文名。本发明具体公开了降低ResNeXt模型在图片分类中过拟合现象的方法，包括如下步骤：步骤1，对公开数据集中的训练图片进行预处理；步骤2，基于ResNeXt网络搭建网络模型，并对ResNeXt网络进行修改；步骤3，使用随机梯度下降法训练修改过后的ResNeXt网络，得到训练好的网络模型；步骤4，输入一张给定的待分类图片，使用步骤3中训练好的网络模型对其进行分类，得到最后的分类结果。步骤1包括：对公开数据集中的训练图片进行常见的数据增强操作，比如：随机裁剪、水平翻转、随机放缩等，具体地，首先将训练图片按照比例0.8、0.9、1.1、1.2随机放缩，然后将训练图片随机水平翻转或按照-30°、-15°、15°、30°等角度进行随机旋转，最后从训练图片上随机裁剪出大小为32×32的样例，作为最终的训练图片。步骤2包括以下步骤：步骤2-1，按照文献Aggregatedresidualtransformationsfordeepneuralnetworks中的方法，使用基数为G的ResNeXt网络的卷积部分对训练图片进行特征提取，得到分组卷积后的G条转换路径，将转换路径的特征图记为x，其大小为H×W，H、W分别表示特征图的长和宽；步骤2-2，Cropout方法为对每条转换路径随机绑定一个随机裁剪操作，具体包括：对特征图x沿着每条边进行k个零元素的填充，将其从原始的H×W扩展为H+k×W+k大小的特征图y，在扩展后的特征图y上随机裁剪出H×W大小的特征图x′，定义在特征图x上补充k个零元素后进行随机裁剪的操作为Ρk，则特征图x上的随机裁剪变换可以用如下公式来表示：x′＝Ρkx,其中x′为随机裁剪变换后的特征图。Cropout方法包括基于ResNeXt网络的聚合变换通常采用分组卷积的形式实现，即步骤2-1中的分组卷积，ResNeXt网络原始的聚合变换用如下公式表示：其中，实际上为一个将特征图x映射为一个低维向量空间的卷积函数，∑为拼接操作，G为ResNeXt的转换路径条数，i代表第i条转换路径，为聚合变换后的特征图。由于所有的变换路径共享相同的拓扑结构，而本发明提出的Cropout方法将轻微的打破聚合变换的同性质形式，则经由Cropout方法修改后的聚合变换可以表示为：其中为经过Cropout方法修改过的聚合变换后的新特征图；该Cropout方法中每条转换路径上绑定的随机裁剪操作仅在网络初始化时构建，此后在网络的训练和测试过程中该绑定方式均保持不变。步骤2-3，将G条经由本发明的方法修改过的聚合转换路径上的特征图x′通过拼接操作合成在一起，形成一个新的特征图作为ResNeXt的下一层网络的输入数据；与现有技术相比，本发明提出的方法有以下优势：有效降低ResNeXt网络在图片分类任务中的过拟合现象；本发明在不改变原有网络大小和深度的前提下非常易于实现。附图说明下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述或其他方面的优点将会变得更加清楚。图1为本发明整体架构图；图2a为未使用分组卷积的ResNeXt的bottleneck单元的设计。图2b为使用了分组卷积的ResNeXt的bottleneck单元的设计。图3为公开数据集CIFAR-10部分图片样例。具体实施方式实施例1下面结合附图及实施例，以公开数据集CIFAR-10和CIFAR-100为例对本发明做进一步说明。数据集CIFAR-10为一个包含10分类的60000张32*32彩色图像组成，每个类别有6000张图像，整个数据集包含50000张训练图片和10000张测试图片；数据集CIFAR-100为一个包含100分类的彩色图片，每个类别含有600张图片，共分为50000张训练数据和10000张测试数据。CIFAR-10数据集部分图像样例如图3所示。步骤1，分别对两个公开数据集CIFAR-10和CIFAR-100中50000张训练数据进行预处理，包括对其进行随机裁剪、水平翻转、随机放缩等常见数据增强操作等，具体地，首先将训练图片按照比例0.8、0.9、1.1、1.2随机放缩，然后将训练图片随机水平翻转或按照-30°、-15°、15°、30°等角度进行随机旋转，最后从训练图片上随机裁剪出大小为32×32的样例，作为最终的训练图片。步骤2，搭建网络模型，使用https:github.comprlz77ResNeXt.pytorch中ResNeXt网络的pytorch版本为实例模型，该模型为基数为8，深度为64的ResNeXt-29网络，写作“ResNeXt-29，8×64D”，并以此网络进行本发明中Cropout方法的修改，具体包括以下步骤：首先，使用ResNeXt-29，8×64D网络的卷积部分按照文献Aggregatedresidualtransformationsfordeepneuralnetworks中的方法，对训练图片进行特征提取，得到分组卷积后的8条转换路径，转换路径的特征图为x，其大小为H×W；然后，对每条转换路径随机绑定一个随机裁剪操作，具体地，对特征图x的每条边进行k个零元素的填充，将其从原始的H×W扩展为H+k×W+k大小的特征图y；最后在扩展后的特征图y上随机裁剪出H×W大小的特征图x′；本发明将以上最大零元素的填充数量为k的随机裁剪操作定义为Ρk，所以特征图x上的随机裁剪变换可以用以下公式来表示：x′＝Ρkx,其中x′为随机裁剪变换后的特征图。Cropout的设计主要基于ResNeXt的聚合变换通常采用分组卷积的形式实现，而聚合变换可以用以下公式表示：在本发明中，实际上为一个将特征图x映射为一个低维向量空间的卷积函数，∑为拼接操作，G为ResNeXt的转换路径条数，i代表第i条转换路径，为聚合变换后的特征图。。由于所有的变换路径共享相同的拓扑结构，而本发明提出的Cropout方法将轻微的打破聚合变换的同性质形式，则经由Cropout方法修改后的聚合变换可以表示为：图1描述了Cropout的概念。在本发明的设计中，裁剪操作在网络初始化阶段随机完成，并且这种裁剪操作与转换路径的绑定关系在初始化网络后是固定不变的。因此，训练时的网络结构和测试时网络结构是完全相同的。修改后的模型细节如表1所示，表1中为Cropout设计了一个超参数P＝{p0,p1,p2}，而经过反复验证当Cropout的超参数设置为P＝{1,1,1}时，在数据集CIFAR-10图片分类任务中表现最好；而当超参数设置为P＝{0,1,0}时，在数据集CIFAR-100图片分类任务中表现最好。表1图2a和图2b阐述了经Cropout方法修改的ResNeXt的bottleneck的设计细节，因为ResNeXt网络采用了bottleneck设计，在每个转换路径上实现了Cropout方法，如图2a所示，从图中可以看出，在前一层卷积特征图经过分组数为8的分组卷积后，随机裁剪发生在每个阶段中卷积核大小为1×1的卷积层后面，卷积核大小为3×3的卷积层前面，然后经过3×3的卷积层后，由拼接操作即图中“concatenate”操作后，8个转换路径上的特征图形成新的特征图作为ResNeXt下一层网络的输入。图2b中所示结构由于使用了分组卷积而比图2a中结构更高效，并且除了3×3的卷积与Cropout的顺序不同外与图2a几乎相同，因此在实际使用中采用图2b结构。步骤3，训练网络模型，使用随机梯度下降法，分别以步骤1中增强过后的两个数据集中的图片作为训练数据对步骤2中修改过后的ResNeXt-29,8×64D模型进行监督训练，得到两个数据集上的训练模型，分别用R1和R2来表示。典型的训练参数设置如下表2：表2步骤4，图片分类，对于一张给定的待分类图片，即数据集CIFAR-10或CIFAR-100中各自10000张测试数据中的任意一张，使用步骤3中训练好的对应不同数据集的网络模型R1和R2对其进行分类得到最后的分类结果。将两个数据集中所有测试数据均分类完成后，分别统计两个数据集分类情况的准确率，得到两个结果：1当Cropout参数取P＝{1,1,1}时，在CIFAR-10上的分类错误率为3.38％，相比不使用Cropout方法修改的模型错误率降低了0.27％；2当Cropout参数取P＝{0,1,0}时，在CIFAR-100上的分类错误率为16.89％，比不使用Cropout方法修改的模型错误率降低了0.88％。以上结果在如今分类错误率已经非常低的情况下进一步将错误率压低，证明本发明方法确实降低了ResNeXt在图像分类任务中的过拟合现象。本发明提供了降低ResNeXt模型在图片分类中过拟合现象的方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

权利要求：1.降低ResNeXt模型在图片分类中过拟合现象的方法，其特征在于，包括如下步骤：步骤1，对公开数据集中的训练图片进行预处理；步骤2，基于ResNeXt网络搭建网络模型，并对ResNeXt网络使用Cropout方法进行修改；步骤3，使用随机梯度下降法训练修改过后的ResNeXt网络，得到训练好的网络模型；步骤4，输入一张给定的待分类图片，使用步骤3中训练好的网络模型对其进行分类，得到最后的分类结果。2.根据权利要求1所述的方法，其特征在于，步骤1包括：对公开数据集中的训练图片进行数据增强操作，包括随机裁剪、水平翻转、随机放缩。3.根据权利要求2所述的方法，其特征在于，步骤2包括以下步骤：步骤2-1，使用基数为G的ResNeXt网络的卷积部分对训练图片进行特征提取，得到分组卷积后的G条转换路径，将转换路径的特征图记为x，其大小为H×W，H、W分别表示特征图的长和宽；步骤2-2，Cropout方法为对每条转换路径随机绑定一个随机裁剪操作，具体包括：对特征图x沿着每条边进行k个零元素的填充，将其从原始的H×W扩展为H+k×W+k大小的特征图y，在扩展后的特征图y上随机裁剪出H×W大小的特征图x′，定义在特征图x上补充k个零元素后进行随机裁剪的操作为Pk，则特征图x上的随机裁剪变换用如下公式来表示：x′＝Pkx，其中x′为随机裁剪变换后的特征图；Cropout方法包括基于ResNeXt网络的聚合变换，ResNeXt网络原始的聚合变换用如下公式表示：其中，为一个将特征图x映射为一个低维向量空间的卷积函数，∑为拼接操作，G为ResNeXt的转换路径条数，i代表第i条转换路径，为聚合变换后的特征图；则经由Cropout方法修改后的聚合变换表示为：其中为经过Cropout方法修改过的聚合变换后的新特征图；步骤2-3，将G条经由Cropout方法修改过的聚合转换路径上的特征图x′通过拼接操作合成在一起，形成一个新的特征图作为ResNeXt的下一层网络的输入数据。

百度查询：南京大学降低ResNeXt模型在图片分类中过拟合现象的方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种断路器、断路器适配方法及装置_上海良信电器股份有限公司_202211166634.5

下一篇：同轴微流控技术制备包水微胶囊的装置及其制备方法_北京化工大学_202410063379.4

相关技术

一种断路器、断路器适配方法及装置_上海良信电器股份有限公司_202211166634.5

同轴微流控技术制备包水微胶囊的装置及其制备方法_北京化工大学_202410063379.4

电解电容器及其温度保护电路、空调控制器及空调器_邯郸美的制冷设备有限公司_202211162130.6

医疗设备及其维护方法、移动终端、维护系统、存储介质_深圳市理邦精密仪器股份有限公司_202211171817.6

一种国土空间规划用地理信息勘测采集设备_武汉永业赛博能规划勘测有限公司_202410226338.2

MNT在检测肺腺癌铁死亡和化疗敏感性中的应用_复旦大学附属中山医院_202311869101.8

巡检动画生成方法、装置、计算机设备及存储介质_浙江中控信息产业股份有限公司_202410004969.X

用于自动聚焦的成像方法和成像装置_三星电子株式会社_202310828379.4

基于人体姿态估计和动作识别的跳绳自动计数方法_成都怡康科技有限公司_202410003545.1

一种板壳式机械甲板一体化结构设计方法_中海石油(中国)有限公司_202410068810.4

一种虚实结合的遇险救援系统及方法_北京达美盛软件股份有限公司_202311860939.0

快闪存储器装置、快闪存储器控制器及快闪存储器控制器的方法_慧荣科技股份有限公司_202311186612.X

分类相关技术

商品分类方法、商品分类模型构建方法及装置_武汉大学_202311855495.1

图像分类方法、训练图像分类模型的方法及装置_阿里巴巴达摩院(杭州)科技有限公司_202310906877.6

基于MSSARN框架的高光谱图像分类模型及分类方法_海南大学_202311845052.4

基于神经网络的分类器、分类方法及存储介质_株式会社NTT都科摩_202211146369.4

图像分类方法、训练图像分类模型的方法及装置_阿里巴巴达摩院(杭州)科技有限公司_202310822213.1

对象分类模型构建方法、对象分类方法、装置和设备_腾讯科技(深圳)有限公司_202311269339.7

基于规则分类器的医疗数据分类方法及相关设备_中国人民解放军国防科技大学_202111576262.9

应用于健康领域的分类模型训练方法和分类识别方法_汤臣倍健股份有限公司_202311848491.0

实体分类模型训练方法、实体分类方法、装置及电子设备_北京百度网讯科技有限公司_202011356458.2

一种海底地貌智能分类模型构建方法、装置及分类方法_中国自然资源航空物探遥感中心_202311009262.X

图片相关技术

图片预标注方法、装置及终端设备_深圳市优必选科技股份有限公司_202011103929.9

使用编码图片缓存器的视频解码装置_弗劳恩霍夫应用研究促进协会_202310616118.6

使用编码图片缓存器的视频编码_弗劳恩霍夫应用研究促进协会_202310619695.0

使用编码图片缓存器的视频编码_弗劳恩霍夫应用研究促进协会_202310616124.1

使用编码图片缓存器的视频编码_弗劳恩霍夫应用研究促进协会_202310251957.2

一种图片播放方法及系统、云存储设备、终端设备_杭州华橙软件技术有限公司_202311754938.8

地图栅格图片生成方法、系统、设备及存储介质_睿视(苏州)视频科技有限公司_202311761275.2

图片信息抽取方法、装置、计算机设备及存储介质_中国平安人寿保险股份有限公司_202111013065.6

对视频流中的图片组编码/解码的方法和编码/解码器_谷歌技术控股有限责任公司_202011117122.0

一种人脸图片自动标注方法、装置、设备及介质_南威软件股份有限公司_202311841303.1

中相关技术

检测薄膜层中缺陷的方法_梅姆斯塔有限公司_201980055006.X

车辆中的雷达装置保护构造_本田技研工业株式会社_202310934727.6

滤除事件设备系统中的噪声_霍尼韦尔国际公司_202311242061.4

制袋机中的收料机构_浙江奥杰包装科技股份有限公司_202322416226.7

中红外高纯度纠缠光子源_中山大学_202410142488.5

一种对中夹紧装置_盈科视控(合肥)科技有限公司_202320975701.1

中硼硅窑炉除尘器_重庆邦润环保科技有限公司_202321923718.9

存储系统中的容器管理_慧与发展有限责任合伙企业_202210418953.4

通信会话中的数字助理交互_苹果公司_202280056406.4

在注视跟踪设备中呈现关于视野中的可控设备的信息以远程控制_国际商业机器公司_202280054497.8

龙图腾网&IPTOP

【发明授权】降低ResNeXt模型在图片分类中过拟合现象的方法_南京大学_201910263146.8

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务