【发明授权】基于目标检测的多任务及临近信息融合的深度学习方法_佛山市顺德区中山大学研究院;广东顺德中山大学卡内基梅隆大学国际联合研究院;中山大学_201810947455.2

申请/专利权人：佛山市顺德区中山大学研究院;广东顺德中山大学卡内基梅隆大学国际联合研究院;中山大学

申请日：2018-08-17

公开（公告）日：2020-07-24

公开（公告）号：CN109101932B

主分类号：G06K9/00(20060101)

分类号：G06K9/00(20060101);G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101)

优先权：

专利状态码：有效-授权

法律状态：2020.07.24#授权;2019.01.22#实质审查的生效;2018.12.28#公开

摘要：本发明公开了基于目标检测的多任务及临近信息融合的深度学习方法，包括输入图片，利用卷积神经网络提取图像特征，并生成目标候选框；将所述目标候选框经过区域候选网络，提取出目标预测框；将目标预测框进行特征提取和特征池化，再进行边框回归、方向预测、目标检测分类，得到初步检测结果；将初步检测结果与目标候选框融合并进入ROI池化层和通过第二全连接层，得到最终检测结果；其中，目标检测分类是利用一个目标预测框与其临近的其他目标预测框的信息关系而重新定义该目标预测框的置信度分数；算法采用多任务输出模式。本发明在提高目标检测的速度的同时，确保了目标检测的准确性，达到实时目标检测的要求。

主权项：1.基于目标检测的多任务及临近信息融合的深度学习方法，其特征在于，包括以下步骤：输入经初始化带有真实框的图片，利用预训练好的卷积神经网络提取图像特征，并生成目标候选框；将所述目标候选框经过区域候选网络，提取出目标预测框；将目标预测框经过卷积层进行特征提取和经过池化层进行特征池化，再经过第一全连接层进行初步边框回归、目标预测框与真实框之间的方向预测、初步目标检测分类，得到包含经筛选后的目标预测框的初步检测结果；将所述初步检测结果和目标候选框融合并进入ROI池化层，并通过第二全连接层来进行最终边框回归和最终目标检测分类，得到包含已分类图片的最终检测结果；其中，所述初步目标检测分类和最终目标检测分类是利用一个目标预测框与其临近的其他目标预测框的信息关系而重新定义该目标预测框的置信度分数。

全文数据：基于目标检测的多任务及临近信息融合的深度学习算法技术领域本发明涉及图像信息处理领域，特别是基于目标检测的多任务及临近信息融合的深度学习算法。背景技术目前，目标检测一直是视觉计算应用的一个基础难题，应用于交通监测、智能驾驶等领域。而现实条件中，一方面由于目标的多样性如在道路上要检测车辆，行人，数目，栏杆等，目标的子类别数量众多如车辆中有公车，小汽车，卡车，自行车等，另一方面目标存在多种角度，不同的遮挡情况和目标显示的局部大小，给目标检测带来了巨大的难度。目标检测目前仍是一个非常具有挑战性的领域，而且在要在实时情况下做到目标检测、识别、并进行追踪，对于检测精度和检测速度都有相当高的要求。从RCNN即RegionswithCNNfeatures开始，将卷积神经网络引入到目标检测领域，大大提高了目标检测效果；随后，SppNET、Fast－RCNN和Faster－RCNN的提出，进一步加速卷积神经网络在目标检测领域的应用，但同时也存在准确率与识别速度的矛盾，因多次重复的特征提取和计算而降低识别速度，同时需要大容量存储空间。此外，还有一种YOLO即Youonlylookonce的结构，识别速度快，但是以牺牲了一定准确率来换取的。提升目标检测的准确度与速度以使其能满足实时目标检测要求的问题迫在眉睫。发明内容为解决上述问题，本发明的目的在于提供基于目标检测的多任务及临近信息融合的深度学习算法，提升目标检测的准确度与速度以满足实时目标检测。本发明解决其问题所采用的技术方案是：基于目标检测的多任务及临近信息融合的深度学习算法，包括以下步骤：输入经初始化带有真实框的图片，利用预训练好的卷积神经网络提取图像特征，并生成目标候选框；利用所述的图像特征，将图片经过区域候选网络，提取出目标预测框；将目标预测框经过卷积层进行特征提取和经过池化层进行特征池化，再经过第一全连接层进行初步边框回归、目标预测框与真实框之间的方向预测、初步目标检测分类，得到包含经筛选后的目标预测框的初步检测结果；将所述初步检测结果和目标候选框融合并进入ROI池化层，并通过第二全连接层来进行最终边框回归和最终目标检测分类，得到包含已分类图片的最终检测结果；其中，所述初步目标检测分类和最终目标检测分类是利用一个目标预测框与其临近的其他目标预测框的信息关系而重新定义该目标预测框的置信度分数。进一步，所述目标预测框与真实框之间的方向预测包括以下步骤：将目标预测框的坐标与真实框的坐标对比，对目标预测框打标签。此外，所述标签的含义为目标预测框相对于真实框的位置移动；所述标签包括Gl、Gr、Gt和Gd，分别对应目标预测框的左边界、右边界、下边界和上边界。进一步，所述标签Gl或Gr对应的动作包括“向左移”、“向右移”、“停在此处”以及“该目标预测框没有目标”；所述标签Gt或Gd对应的动作包括“向上移”、“向下移”、“停在此处”以及“该目标预测框没有目标”。进一步，所述初步目标检测分类和最终目标检测分类具体包括以下步骤：经过目标预测框与真实框之间的方向预测后，结合目标预测框的坐标与其对应的四个标签，得到一组其临近的其他目标预测框；对比目标预测框与其临近的其他目标预测框的位置信息和标签，结果一致则该目标预测框的置信度分数不变，结果不一致则该目标预测框的置信度分数减少；当遍历完成后，应用NMS算法得到最终的结果。进一步，所述初步边框回归、目标预测框与真实框之间的方向预测、初步目标检测分类实现多任务输出，共享网络参数。进一步，所述最终边框回归和最终目标检测分类实现多任务输出，共享网络参数。进一步，所述网络参数包括真实框的分类和真实框的边框回归目标。优选地，所述卷积神经网络是ResNet101网络。本发明的有益效果是：本发明采用的基于目标检测的多任务及临近信息融合的深度学习算法，通过对目标预测框的置信度分数算法的改进能减少冗余的特征提取与重复的卷积计算，从而缩短目标检测的流程，提高检测的速率；同时对于目标预测框的选择精度提升了从而提高检测的准确率。附图说明下面结合附图和实例对本发明作进一步说明。图1是本发明基于目标检测的多任务及临近信息融合的深度学习算法的网络结构图；图2是本发明基于目标检测的多任务及临近信息融合的深度学习算法的步骤流程图。具体实施方式参照图1和图2，本发明的基于目标检测的多任务及临近信息融合的深度学习算法包括以下步骤：步骤S1：输入经初始化带有真实框的图片，利用预训练好的卷积神经网络提取图像特征，并生成少量明显的目标候选框；步骤S2：利用步骤S1得到的图像特征，将图片经过区域候选网络，提取出大量的目标预测框；步骤S3：将步骤S2得到的目标预测框经过卷积层进行特征提取和经过池化层进行特征池化，再经过第一全连接层进行初步边框回归、目标预测框与真实框之间的方向预测、初步目标检测分类，得到包含经筛选后的目标预测框的初步检测结果；步骤S4：将步骤S3得到的初步检测结果和步骤S1得到的目标候选框融合并进入ROI池化层，并通过第二全连接层来进行最终边框回归和最终目标检测分类，得到最终检测结果。其中，步骤S3中的初步目标检测分类和步骤S4中的最终目标检测分类是利用一个目标预测框与其临近的其他目标预测框的信息关系而重新定义该目标预测框的置信度分数；同时目标检测分类基于目标预测框与真实框之间的方向预测。所述目标预测框与真实框之间的方向预测为将目标预测框的坐标与真实框的坐标对比，并对目标预测框打标签。所述标签的含义为目标预测框相对于真实框的位置移动；所述标签为Gl、Gr、Gt和Gd，分别对应目标预测框的左边界、右边界、下边界和上边界。标签Gl或Gr对应的动作包括“向左移”、“向右移”、“停在此处”以及“该目标预测框没有目标”；标签Gt或Gd对应的动作包括“向上移”、“向下移”、“停在此处”以及“该目标预测框没有目标”。目标检测分类的得分算法具体为，经过目标预测框与真实框之间的方向预测后，结合目标预测框的坐标与其对应的四个标签，得到一组其临近的其他目标预测框；对比目标预测框与该组其临近的其他目标预测框的位置信息和标签，结果一致则该目标预测框的置信度分数不变，结果不一致则该目标预测框的置信度分数减少。一个实施例中，假设一个目标预测框P有坐标系P＝{x1，y1，x2，y2}以及所预测的分数S。定义一系列目标预测框P临近的其他目标预测框组成集合N。假设N有n个值，假设集合N里面的第i个目标预测框的坐标为对于每一组坐标，可以判断P与Ni之间的方向是否正确。计算的具体公式如下所示：其中，其他的ΩP，Ni函数的规则与ΩlP，Ni相同。当遍历完成后，应用NMS即NonMaximumSuppression算法得到最终的结果。此外，本发明中，初步边框回归、预测框与真实框之间的方向预测和初步目标检测分类实现多任务输出；同时最终边框回归和最终目标检测分类也实现多任务输出。进行多任务输出能共享网络参数，多进程迭代学习，并且共享过程能够推动单个或多个任务的效果。在通过了区域候选网络产生目标预测框后，通过接入池化层对每个目标预测框的卷积特征进行池化，那么这些池化后的特征就用于上述的三个子任务。每一个用于训练的目标预测框都标上了真实框的分类和真实框的边框回归目标。这些标记的数值可以用于分类损失函数和边框回归函数。分类损失函数具体为：边框回归函数具体为：本发明正是基于多任务输出以及对目标检测分类的得分算法的改进使得准确率与速度都得到明显的提高。测试结果如下：表1.本算法与其他方法的mAP比较表方法名称mAP本发明91.67Faster-RCNN82.843DOP88.64AOG75.94表1是在KITTI数据集上进行测试验证得到的。mAP是衡量目标检测的准确率的一个标准。由此可看出，本发明在mAP方面较其他方法得到了明显的提升。以上所述，只是本发明的较佳实施例而已，本发明并不局限于上述实施方式，只要其以相同的手段达到本发明的技术效果，都应属于本发明的保护范围。

权利要求：1.基于目标检测的多任务及临近信息融合的深度学习算法，其特征在于，包括以下步骤：输入经初始化带有真实框的图片，利用预训练好的卷积神经网络提取图像特征，并生成目标候选框；利用所述的图像特征，将图片经过区域候选网络，提取出目标预测框；将目标预测框经过卷积层进行特征提取和经过池化层进行特征池化，再经过第一全连接层进行初步边框回归、目标预测框与真实框之间的方向预测、初步目标检测分类，得到包含经筛选后的目标预测框的初步检测结果；将所述初步检测结果和目标候选框融合并进入ROI池化层，并通过第二全连接层来进行最终边框回归和最终目标检测分类，得到包含已分类图片的最终检测结果；其中，所述初步目标检测分类和最终目标检测分类是利用一个目标预测框与其临近的其他目标预测框的信息关系而重新定义该目标预测框的置信度分数。2.根据权利要求1所述的基于目标检测的多任务及临近信息融合的深度学习算法，其特征在于，所述目标预测框与真实框之间的方向预测包括以下步骤：将目标预测框的坐标与真实框的坐标对比，对目标预测框打标签。3.根据权利要求2所述的基于目标检测的多任务及临近信息融合的深度学习算法，其特征在于：所述标签的含义为目标预测框相对于真实框的位置移动；所述标签包括Gl、Gr、Gt和Gd，分别对应目标预测框的左边界、右边界、下边界和上边界。4.根据权利要求3所述的基于目标检测的多任务及临近信息融合的深度学习算法，其特征在于：所述标签Gl或Gr对应的动作包括“向左移”、“向右移”、“停在此处”以及“该目标预测框没有目标”；所述标签Gt或Gd对应的动作包括“向上移”、“向下移”、“停在此处”以及“该目标预测框没有目标”。5.根据权利要求4所述的基于目标检测的多任务及临近信息融合的深度学习算法，其特征在于，所述初步目标检测分类和最终目标检测分类具体包括以下步骤：经过目标预测框与真实框之间的方向预测后，结合目标预测框的坐标与其对应的四个标签，得到一组其临近的其他目标预测框；对比目标预测框与其临近的其他目标预测框的位置信息和标签，结果一致则该目标预测框的置信度分数不变，结果不一致则该目标预测框的置信度分数减少；当遍历完成后，应用NMS算法得到最终的结果。6.根据权利要求1所述的基于目标检测的多任务及临近信息融合的深度学习算法，其特征在于：所述初步边框回归、目标预测框与真实框之间的方向预测、初步目标检测分类实现多任务输出，共享网络参数。7.根据权利要求1所述的基于目标检测的多任务及临近信息融合的深度学习算法，其特征在于：所述最终边框回归和最终目标检测分类实现多任务输出，共享网络参数。8.根据权利要求6或7所述的基于目标检测的多任务及临近信息融合的深度学习算法，其特征在于：所述网络参数包括真实框的分类和真实框的边框回归目标。9.根据权利要求1所述的基于目标检测的多任务及临近信息融合的深度学习算法，其特征在于：所述卷积神经网络是ResNet101网络。

百度查询：佛山市顺德区中山大学研究院;广东顺德中山大学卡内基梅隆大学国际联合研究院;中山大学基于目标检测的多任务及临近信息融合的深度学习方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种基于拉链衫生产的高效重复剪切设备及其重复剪切方法_申洲针织(安徽)有限公司_202410021823.6

下一篇：一种连续管注气工艺管柱及其操作方法_中国石油天然气股份有限公司_202211165652.1

相关技术

一种基于拉链衫生产的高效重复剪切设备及其重复剪切方法_申洲针织(安徽)有限公司_202410021823.6

一种连续管注气工艺管柱及其操作方法_中国石油天然气股份有限公司_202211165652.1

一种碳纤维复合材料回收设备及回收工艺_江苏德晴新材股份有限公司_202311849367.6

测试方法、装置及存储介质_抖音视界有限公司_202211180544.1

MNT在检测肺腺癌铁死亡和化疗敏感性中的应用_复旦大学附属中山医院_202311869101.8

一种范围可调的煤炭工程运输用喷淋降尘装置及其使用方法_内蒙古上海庙矿业有限责任公司_202311870762.2

一种存储器及电子设备_华为技术有限公司_202211196521.X

一种断路器、断路器适配方法及装置_上海良信电器股份有限公司_202211166634.5

一种烹饪器具的风流控温方法_九阳股份有限公司_202410117477.1

快闪存储器装置、快闪存储器控制器及快闪存储器控制器的方法_慧荣科技股份有限公司_202311186612.X

基于人体姿态估计和动作识别的跳绳自动计数方法_成都怡康科技有限公司_202410003545.1

一种工业蒸汽清洗设备及清洗方法_宁波荣宜达电器有限公司_202410023612.6

信息相关技术

信息处理装置、信息处理方法以及信息处理程序_NTT通信公司_202280055436.3

信息处理装置、信息处理方法以及信息处理程序_创想商业有限公司_202280052043.7

信息处理装置、信息处理方法以及信息处理系统_索尼公司_201980033449.9

信息码读取系统、及信息码读取装置_电装波动株式会社_202110334357.3

信息处理装置、信息处理方法和程序_索尼集团公司_202080079087.X

基于信息混淆脱敏的信息保护方法及系统_上海零数众合信息科技有限公司_202311842342.3

信息提供方法以及信息提供装置_松下控股株式会社_201980026670.1

信息处理装置、信息处理方法和程序_索尼集团公司_202280045492.9

恶意单元检测信息_摩托罗拉移动有限责任公司_201880025198.5

信息读取装置、无线标签、信息读取系统、信息读取方法以及计算机可读记录介质_尼得科株式会社_202311256156.1

融合相关技术

一种基于全局信息融合的多模态医学图像融合方法_中国科学技术大学_202210202366.1

一种图像融合方法_云南大学_202311242172.5

地图数据融合方法、装置及设备_北京四维图新科技股份有限公司_202311843842.9

一种锁定腰椎融合器_创生医疗器械(中国)有限公司_201611138137.9

用于关节融合的系统和方法_汇聚义肢系统有限责任公司_202280050261.7

松弛素融合多肽及其用途_免疫医疗有限公司_201880008499.7

一种基于PSO-BP融合算法的多源交通数据融合方法_宁波大学_202311413913.1

融合型电力模组温度控制系统及方法_中国联合网络通信集团有限公司_202311716591.8

一种多模态数据融合方法及系统_卓世科技(海南)有限公司_202410220630.3

一种节能面水融合揉压轴_邢台市菱拓机械科技有限公司_202321984702.9

临近相关技术

一种应用于临近空间飞行器的振动测试仪_中国航天空气动力技术研究院_202311842453.4

临近失稳状态的基坑水平钢支撑更替装置及方法_上海建工集团股份有限公司_202311814488.7

基于时空注意力门控融合网络的闪电临近预报方法及装置_成都师范学院_202410030119.7

一种针对临近空间科学实验的载荷测试系统_中国科学院空天信息创新研究院_202311697434.7

一种基于临近空间探空仪的多功能复用天线系统_南京信息工程大学_202410053346.1

发电装置及临近空间飞行器_佛山顺德光启尖端装备有限公司_201611168543.X

一种可预报临近期降水的雨量遥测系统_中国长江电力股份有限公司_202322132197.1

临近既有线钢结构预拼装方法、装置、设备和存储介质_中铁六局集团有限公司_202210940406.2

一种分类强对流临近概率预报方法、系统、设备及终端_南京大学_202410018907.4

一种装配式车站及临近地表结构抗震试验系统及方法_同济大学_202311627090.2

龙图腾网&IPTOP

【发明授权】基于目标检测的多任务及临近信息融合的深度学习方法_佛山市顺德区中山大学研究院;广东顺德中山大学卡内基梅隆大学国际联合研究院;中山大学_201810947455.2

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务