买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于多区域数据增强的菜品识别方法_北京航空航天大学杭州创新研究院;杭州食方科技有限公司_202210163468.7 

申请/专利权人:北京航空航天大学杭州创新研究院;杭州食方科技有限公司

申请日:2022-02-22

公开(公告)日:2024-04-26

公开(公告)号:CN114782735B

主分类号:G06V10/764

分类号:G06V10/764;G06V10/82;G06N3/084

优先权:

专利状态码:有效-授权

法律状态:2024.04.26#授权;2022.08.09#实质审查的生效;2022.07.22#公开

摘要:本发明一种基于多区域数据增强的菜品识别方法,在传统的菜品识别方法的基础上,对训练的过程中的每一张输入图像进行多区域数据增强;所述多区域增强方法分别由两步完成,第一步将输入图像从水平维度以及竖直维度平均裁剪为四等份,第二步选择每两个相邻的14等份分别做数据增强,将上述两步骤产生的四个多区域增强的增强图像用作训练菜品分类神经网络,通过同时计算四个样本的平均距离损失以及分类损失来对神经网络进行协同优化;本发明通过对输入图像做多区域数据增强,使得神经网络对菜品的特征提取鲁棒性更强,降低模型对识别环境变化以及菜品形态变化的敏感程度,提升菜品识别模型在不同环境下的鲁棒性。

主权项:1.一种基于多区域数据增强的菜品识别方法,其特征在于包括:A神经网络训练步骤,包括:对输入图像做水平与竖直裁剪得到四个等尺寸的14小裁剪图像,然后选择每两个相邻的14等份共四种组合分别做数据增强,将上述两步骤中的由四种组合产生的四个多区域增强的增强图像用作训练菜品分类模型,B训练步骤,除采用分类的损失函数外,还采用平均距离损失函数来约束神经网络对由同一张输入图像经过多区域数据增强后得到的四张增强图像提取出的特征向量相似度最大化,进而在优化菜品分类的同时提高神经网络特征提取的鲁棒性;所述步骤A包括:A1从训练集随机选取一组64张输入图像,对这64张输入图像中的每一张分别进行多区域数据增强,具体包括:对所选的输入图像同时进行水平、竖直裁剪,获取四张裁剪后的小裁剪图像分别用C0,C1,C2,C3表示,尺寸为原输入图像的14;选择每两个相邻的14等份,共四种不同的组合:C0,C1,C3,C0,C1,C2,C2,C3;对每两个相邻的14等份,分别做随机的数据增强,包括:i随机的亮度偏移I;ii随机的对比度偏移O;iii随机的饱和度偏移S;iv随机的高斯噪声U;由一张输入图像的四种组合经过前三个步骤可以得到四张多区域数据增强的增强图像,因此由64张原始输入图像得到了64*4=256张增强图像,增强图像的菜品类别和输入图像一致;对所有的增强图像重采样到宽高均为224个像素,并通过除以255.0将每张增强图像的像素值归一化到0和1之间;步骤五,将上述重采样以及归一化处理后的256张增强图像输入到菜品识别网络中;A2模型优化步骤,包括:A21设菜品的总类别数量为N,菜品识别网络输出为V,尺寸为256,N;A22设由64张输入图像经过多尺寸数据增强得到的256张增强图像的正确菜品类别为向量Y,尺寸为256,基于V和Y计算SmoothCE分类损失LC,重排列V的尺寸为64,4,N,通过计算向量V的的平均值得到平均向量M,尺寸为64,1,N,从第二个维度将V分离成四个向量M01,M30,M12,M23,尺寸均为64,1,N,其中第二个维度长度为4且在矩阵的第二维;A23基于输出向量计算平均距离损失LD=|M-M01|+|M-M30|+|M-M12|+|M-M23|4,进而获取总的损失值L=LC+LD;A24基于总损失值L来计算神经网络参数的梯度,并采用AdamW优化器对神经网络的参数进行优化。

全文数据:

权利要求:

百度查询: 北京航空航天大学杭州创新研究院;杭州食方科技有限公司 一种基于多区域数据增强的菜品识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。