买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于自适应对比学习的菜品识别方法_北京航空航天大学杭州创新研究院;杭州食方科技有限公司_202210163470.4 

申请/专利权人:北京航空航天大学杭州创新研究院;杭州食方科技有限公司

申请日:2022-02-22

公开(公告)日:2024-04-26

公开(公告)号:CN114758167B

主分类号:G06V10/764

分类号:G06V10/764;G06V10/82;G06N3/084

优先权:

专利状态码:有效-授权

法律状态:2024.04.26#授权;2022.08.02#实质审查的生效;2022.07.15#公开

摘要:本发明涉及一种基于自适应对比学习的菜品识别方法,与传统的菜品识别方法不同,基于自适应对比学习的神经网络,无需在线训练,对推理环境要求较低,本发明提出多尺度三元组损失函数,使得神经网络自适应的学习不同尺度差异的损失,从而更好的区分菜品间的细微差异;所述的多尺度三元组损失函数由包括三种边界的三元组损失函数以及一个最大值选择函数组成,可自适应选择三元组损失的边界值;本发明通过自适应对比学习的方式来实现菜品识别的离线推理,不仅不受菜品种类的约束,能够应对类别的实时变化,离线推理还大大降低了菜品识别应用环境的算力要求;本发明通过在反馈过程中引入低相似度样本自动删除,使得菜品识别方法可以长时间稳定运行。

主权项:1.一种基于自适应对比学习的菜品识别方法,其特征在于包括:A训练步骤,包括从训练集中随机选择32个不同的菜品类别,然后从每个菜品类别中随机取8张图片,共256张图片进行数据增强,包括:A1对所选的256张图片以Q1的概率做水平翻转得到随机水平翻转后的256张图片;A2对步骤A1中得到的256张图片以Q2的概率做竖直翻转得到随机竖直翻转后的256张图片;A3对步骤A2中得到的256张图片按顺序以Q3的概率增加随机的对比度噪声、饱和度噪声和亮度噪声,得到随机增加随机噪声的256张图片;A4图像重采样和像素值归一化,包括将步骤A3中得到的256张图片均重采样,得到宽高均为224个像素的256张图片,将每张图片的像素值归一化处理为0和1之间;A5将上述重采样和像素值归一化处理后的256张图片输入到特征提取网络中,该特征提取网络可以是任意的可用于图像分类的神经网络,本发明以ResNet18、ResNet50为例,得到尺寸为256,V的特征向量,V可以是任意长度,本发明以常见的1000为例;A6根据256张图片的菜品ID找出这256张图片中存在的所有的三元组a,p,n,其中a为基于模版图片提取的特征,p为基于任意一张与a同菜品类别的输入图片提取的特征,n为基于任意一张与a不同菜品类别的输入图片提取的特征,计算每个三元组的多尺度三元组损失LB=max{da,p-da,n+MB,0}、中等边界三元组损失LI=g*max{da,p-da,n+MI,0}、以及较小边界三元组损失LS=f*max{da,p-da,n+MS,0},其中g、f为常量,dx,y为x与y的欧式距离,下标B、I、S分别代表较大边界、中等边界、较小边界,然后对每一个三元组a,p,n,保留L=max{LB,LI,LS}为最终损失;A7基于AdamW优化器以及最终损失来计算神经网络参数的梯度,对模型的参数进行优化,B菜品识别步骤,包括:B1将一张未知菜品图像经过重采样和像素值归一化处理,得到尺寸为1,3,224,224的图像张量P,输入基于自适应对比学习优化的神经网络中,经过神经网络计算后得到一个尺寸为1,1000的特征向量M;B2若该菜品类别的菜品第一次出现或特征缓存区中为空,则认为是新菜品类别,不做识别且将特征向量及新类别加入特征库,否则,计算M与特征缓存区内所有特征的欧式距离,取最小值D对应的菜品类别为最终识别结果;步骤三,执行低相似度样本自动删除策略,若最小距离D小于预设的阈值T,则将当前识别的特征及识别结果保存到特征缓存区中,否则丢弃,完成识别过程。

全文数据:

权利要求:

百度查询: 北京航空航天大学杭州创新研究院;杭州食方科技有限公司 一种基于自适应对比学习的菜品识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。