买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于RGB-D相机的人脸识别辅助眼镜_杭州视氪科技有限公司_201611139308.X 

申请/专利权人:杭州视氪科技有限公司

申请日:2016-12-12

公开(公告)日:2020-03-20

公开(公告)号:CN106600640B

主分类号:G06T7/70(20170101)

分类号:G06T7/70(20170101);G06T7/55(20170101);G06T5/40(20060101)

优先权:

专利状态码:有效-授权

法律状态:2020.03.20#授权;2017.07.21#著录事项变更;2017.05.24#实质审查的生效;2017.04.26#公开

摘要:本发明公开了一种基于RGB‑D相机的人脸识别辅助眼镜,包括眼镜本体、以及固定在眼镜本体上的彩色相机、深度相机、USB集线器、小型处理器、骨传导耳机和电池;本发明利用两个相机的彩色图像和深度图像进行人脸的跟踪,并自动为这些人脸赋予标签;人脸图像被正面化矫正,可以适应不同姿态下的识别;所述矫正后的人脸图像被用于在神经网络中训练人脸识别模型;待识别的人脸图像被输入到所述训练好的人脸识别模型,模型输出的识别结果通过3D立体声的方式传递给使用者,对视障人士进行辅助。

主权项:1.一种基于RGB-D相机的人脸识别辅助眼镜,其特征在于,包括眼镜本体、以及固定在眼镜本体上的彩色相机、深度相机、USB集线器、小型处理器、骨传导耳机和电池;彩色相机和深度相机的姿态角一致,且通过USB集线器与小型处理器相连,电池模块与小型处理器相连;骨传导耳机与小型处理器相连,彩色相机、深度相机、小型处理器和骨传导耳机均通过电池供电;两个相机分布固定在两个镜片的正上方,USB集线器和电池嵌入式安装在左镜脚内,小型处理器嵌入式安装在右镜脚内;彩色相机和深度相机获取到的彩色图像和深度图像通过USB传输到小型处理器,小型处理器将采集的图像进行校正后,与人脸数据库进行匹配,实现人脸识别,并将识别结果通过骨传导耳机进行播放,实现人脸识别辅助;具体包括如下步骤:1人脸的录入和人脸数据库的建立:针对每一个识别对象,通过彩色相机和深度相机采集多帧连续图像,小型处理器根据彩色相机采集的多帧连续图像,通过RGB-D中的彩色图像通道检出人脸图像,以第一帧中检出的人脸图像作为人脸跟踪的初始化起点;若在第n帧中出现人脸漏检或检测错误,则可以启动人脸跟踪模式,检出人脸的区域;录入所有识别对象的人脸图像数据和对应的姓名,建立人脸数据库;所述人脸跟踪模式包括以下步骤:第一,在第n-1帧的人脸检出情况下,分别计算彩色图和深度图中的人脸区域的直方图;彩色直方图的横坐标为色度值,纵坐标为每个色度值对应的像素的个数;深度直方图的横坐标为深度值,纵坐标为每个深度值对应的像素的个数;第二,在第n帧中,计算彩色图和深度图的返向投影图;彩色图对应的返向投影图是将彩色图中的每个像素点的色度值替换为彩色直方图中对应的纵坐标而获得;深度图对应的返向投影图是将深度图中的每个像素点的深度值替换为深度直方图中对应的纵坐标而获得;将两个返向投影图融合后,得到更符合实际情况的人脸区域预测;第三,在融合后的返向投影图中,应用均值漂移算法MeanShift,计算出第n帧人脸的区域;2人脸图像的矫正;3神经网络训练;4采集人脸并进行人脸识别;53D立体声用于识别结果的交互。

全文数据:一种基于RGB-D相机的人脸识别辅助眼镜技术领域[0001] 本发明涉及模式分类,机器学习,人脸识别,视觉障碍人群辅助技术领域,尤其涉及一种基于RGB-D相机的人脸识别辅助眼镜。背景技术[0002] 根据世界卫生组织WHO的数据,全球有2.85亿视障人士,其中有3900万是盲人。视障人士的日常生活中,识别周围人的身份是突出的需求。在没有其他设备的辅助下,视障人士只能通过辨别声音来判断,这在很大程度上受限于视障人士与其周围人的熟悉程度,距离,环境嘈杂度等因素。传统的人脸识别方法,一般采用彩色相机拍摄人脸图像,并且需要保证正面的人脸和均匀的光照,这就要求采集人脸样本的过程中,人脸尽量靠近相机并且正面面向相机。因此,设计一种专门面向视障人士的人脸识别系统,并使用简单自然的交互方式,将在很大程度上为视障人士提供方便。发明内容[0003] 本发明的目的是利用RGB-D相机和人脸识别技术,解决视障人士的认人和识人方面存在的不便利性,旨在为视障人士提供一种简单易用,交互方式人性化的人脸识别辅助眼镜。[0004] 本发明通过以下技术方案来实现:一种基于RGB-D相机的人脸识别辅助眼镜,包括眼镜本体、以及固定在眼镜本体上的彩色相机、深度相机、USB集线器、小型处理器、骨传导耳机和电池;彩色相机和深度相机的姿态角一致,且通过USB集线器与小型处理器相连,电池模块与小型处理器相连。骨传导耳机与小型处理器相连,彩色相机、深度相机、小型处理器和骨传导耳机均通过电池供电;两个相机分布固定在两个镜片的正上方,USB集线器和电池嵌入式安装在左镜脚内,小型处理器嵌入式安装在右镜脚内。彩色相机和深度相机获取到的彩色图像和深度图像通过USB传输到小型处理器,小型处理器将采集的图像进行校正后,与人脸数据库进行匹配,实现人脸识别,并将识别结果通过骨传导耳机进行播放,实现人脸识别辅助。[0005] 进一步地,通过以下方法进行人脸识别辅助:I人脸的录入和人脸数据库的建立;⑵人脸图像的矫正;3神经网络训练;⑷采集人脸并进行人脸识别;53D立体声用于识别结果的交互。[0006] 进一步地,所述步骤I具体为:针对每一个识别对象,通过彩色相机和深度相机采集多帧连续图像,小型处理器根据彩色相机采集的多帧连续图像,通过RGB-D中的彩色图像通道检出人脸图像,以第一帧中检出的人脸图像作为人脸跟踪的初始化起点。若在第η帧中出现人脸漏检或检测错误,则可以启动人脸跟踪模式,检出人脸的区域。录入所有识别对象的人脸图像数据和对应的姓名,建立人脸数据库。所述人脸跟踪模式包括以下步骤:[0007] 第一,在第η-1帧的人脸检出情况下,分别计算彩色图和深度图中的人脸区域的直方图。彩色直方图的横坐标为色度值,纵坐标为每个色度值对应的像素的个数;深度直方图的横坐标为深度值,纵坐标为每个深度值对应的像素的个数。[0008] 第二,在第η帧中,计算彩色图和深度图的返向投影图。彩色图对应的返向投影图是将彩色图中的每个像素点的色度值替换为彩色直方图中对应的纵坐标而获得;深度图对应的返向投影图是将深度图中的每个像素点的深度值替换为深度直方图中对应的纵坐标而获得。将两个返向投影图融合后,得到更符合实际情况的人脸区域预测。[0009] 第三,在融合后的返向投影图中,应用均值漂移算法MeanShift,计算出第η帧人脸的区域。[0010] 进一步地,所述步骤⑵具体为:[0011] 第一,调整人脸图像的格式为统一大小,即100像素*100像素。[0012] 第二,检出人脸区域的特征点,所述特征点包括脸颊轮廓、眼睛、眉毛、鼻子、嘴巴。所述特征点的检出是基于彩色图像的。[0013] 第三,以具有上述特征点的三维人脸模型为基准坐标系,根据彩色图像中的特征点位置,对RGB-D进行坐标标定,得到相机坐标系。[0014] 第四,三维模型中的所有点被投影到所述相机坐标系中。[0015] 第五,将彩色图像投影到相机坐标系下的三维模型中,赋予每个点的RGB信息;[0016] 第六,对赋值后的三维模型进行正面投影,得到矫正后的人脸图像。[0017] 第七,转彩色人脸图像为灰度图,并做直方图均衡化处理。[0018] 进一步地,所述步骤3具体为:矫正得到的人脸图像,大小统一为100像素*100像素,可以视作一个10000维的向量。然后通过主成分分析PCA进行降维处理。[0019] 每一个人脸对应一个由O和I组成的数据标签,第m个人脸的数据标签为[ai,a2,…am,…ak],其中,am=l,其余为0,k为人脸总数;以降维后的数据作为输入,数据标签作为输出,用反向传播算法BP训练神经网络模型。[0020] 进一步地,通过以下方法进行识别:[0021] 采集待识别的人脸图像,经过所述矫正、降维处理,再输入训练好的神经网络,在输出向量的各个元素中,若只有一个是大于所述阈值0.5的,则判定输入数据所属的类别为此向量元素对应的类;若有多于一个元素的值大于阈值或所有元素的值都小于阈值,则判定输入数据不属于训练时的数据集,在人脸识别中即为陌生人。[0022] 进一步地,通过以下方法交互:[0023] 根据步骤4识别的人脸,获得其姓名,进一步根据深度图可以获知其方位和距离;通过骨传导耳机以3D声音播放姓名给使用者,3D声音的角度用于指示人脸的方位,3D声音的大小用于指示人脸的距离。[0024] 本发明的有益效果在于:[0025] 1.本发明为视障人士提供了一种识别其周围人身份信息的眼镜。[0026] 2.本发明所述的眼镜中涉及的人脸跟踪方法能提高人脸检出率,并且能自动标记图像的标签。[0027] 3.本发明所述的眼镜中涉及的人脸图像矫正方法能去除头部姿态变化和不均匀的光照对人脸识别的影响。[0028] 4.本发明提出的3D立体声音用于识别结果的交互,有效提高人脸识别系统使用过程的体验度。附图说明[0029]图1是系统结构示意图;[0030]图2是人脸检出结果图;[0031]图3是灰度化处理后的彩色直方图或深度直方图;[0032]图4是融合后的反向投影图;[0033]图5是矫正前和矫正后人脸图像的对比图。[0034]图6为本发明人脸识别辅助眼镜的结构示意图。具体实施方式[0035] 如图6所示,一种基于RGB-D相机的人脸识别辅助眼镜,包括眼镜本体、以及固定在眼镜本体上的彩色相机、深度相机、USB集线器、小型处理器、骨传导耳机和电池;彩色相机和深度相机的姿态角一致,且通过USB集线器与小型处理器相连,电池模块与小型处理器相连。骨传导耳机与小型处理器相连,彩色相机、深度相机、小型处理器和骨传导耳机均通过电池供电;两个相机分布固定在两个镜片的正上方,USB集线器和电池嵌入式安装在左镜脚内,小型处理器嵌入式安装在右镜脚内。彩色相机和深度相机获取到的彩色图像和深度图像通过USB传输到小型处理器,小型处理器将采集的图像进行校正后,与人脸数据库进行匹配,实现人脸识别,并将识别结果通过骨传导耳机进行播放,实现人脸识别辅助。具体步骤如下:[0036] I人脸的录入和人脸数据库的建立;[0037] 针对每一个待识别对象,通过彩色相机和深度相机采集多帧连续图像,小型处理器根据彩色相机采集的多帧连续图像,通过RGB-D相机中的彩色图像通道检出人脸图像,以第一帧中检出的人脸图像作为人脸跟踪的初始化起点。若在第η帧中出现人脸漏检或检测错误,则可以启动人脸跟踪模式,检出人脸的区域。录入所有待识别对象的人脸图像数据和对应的姓名,建立人脸数据库。[0038] 所述人脸跟踪模式包括以下步骤:[0039] 第一,在第η-1帧的人脸检出情况下,如图2所示人脸区域被框出,分别计算彩色图和深度图中的人脸区域的直方图,如图3所示。彩色直方图的横坐标为色度值,纵坐标为每个色度值对应的像素的个数;深度直方图的横坐标为深度值,纵坐标为每个深度值对应的像素的个数。[0040] 第二,在第η帧中,计算彩色图和深度图的返向投影图,如图4所示。彩色图对应的返向投影图是将彩色图中的每个像素点的色度值替换为彩色直方图中对应的纵坐标而获得;深度图对应的返向投影图是将深度图中的每个像素点的深度值替换为深度直方图中对应的纵坐标而获得。返向投影图为灰度图像,在所述彩色图和深度图分别对应的返向投影图中,灰度值越大的区域有更大的可能性是人脸区域;将两个返向投影图融合后,得到更符合实际情况的人脸区域预测。[0041] 第三,在融合后的返向投影图中,应用均值漂移算法MeanShift,计算出第η帧人脸的区域。[0042] 2人脸图像的矫正[0043] 人脸的矫正是用于去除头部姿态变化和不均匀的光照对人脸识别的影响。人脸识别相当于一个分类问题,在分类器的训练过程中,样本的类间差异应该较大而每一类的类内差异应该较小,所述头部姿态变化和不均匀的光照会增大类内差异,甚至达到和类间差异相当的程度,对于这样的样本,在分类器训练过程中,分类器难以找到不同类之间的差异,结果就是分类器不具备正确分类的能力。同样地,未经矫正的人脸图像在识别过程中更容易出错。[0044] 人脸图像的矫正分为以下步骤:[0045] 第一,调整人脸图像的格式为统一大小,即100像素*100像素。[0046] 第二,检出人脸区域的特征点,所述特征点包括脸颊轮廓、眼睛、眉毛、鼻子、嘴巴。所述特征点的检出是基于彩色图像的。[0047] 第三,在一个通用的三维人脸模型中找到对应特征点的三维坐标,所述三维坐标在世界坐标系中。根据特征点在彩色图像中的二维坐标和相机参数,以及所述三维模型中的三维坐标,计算得到世界坐标系和相机坐标系的转换关系。[0048] 第四,三维模型中的所有点,依据所述坐标系转换关系,被投影到所述相机坐标系中,由此得到了每个点的RGB信息。[0049] 第五,对赋值RGB信息后的人脸三维模型在正面方向上投影,得到矫正后的人脸图像。[0050] 第六,转彩色人脸图像为灰度图,并做直方图均衡化处理。[0051]如图5所示为矫正前和矫正后人脸图像的对比,其中a,b,c为校正前的图像,d,e,f分别为对应的校正后的图像。[0052] 3神经网络训练[0053] 矫正得到的人脸图像,大小统一为100像素*100像素,可以视作一个10000维的向量。这样的维度对于需要实时计算的神经网络输入来说太大而不能接受。主成分分析PCA被运用于预处理数据。所述数据预处理即为降维。[0054] 每一个人脸对应于一个由O和I组成的数据标签,第m个人脸的数据标签为[ai,a2r-am,…ak],其中,am=I,其余为O,k为人脸总数;以降维后的数据作为输入,数据标签作为输出,用反向传播算法BP训练神经网络模型。[0055] ⑷识别人脸[0056] 采集待识别的人脸图像,经过所述矫正、降维处理,再输入训练好的神经网络,在输出向量的各个元素中,若只有一个是大于所述阈值0.5的,则判定输入数据所属的类别为此向量元素对应的类;若有多于一个元素的值大于阈值或所有元素的值都小于阈值,则判定输入数据不属于训练时的数据集,在人脸识别中即为陌生人。[0057] 53D立体声用于识别结果的交互[0058] 对所述步骤⑷识别的人脸,获得其姓名,进一步根据深度图可以获知其方位和距离;通过骨传导耳机以3D声音播放姓名给使用者,3D声音的角度用于指示人脸的方位,3D声音的大小用于指示人脸的距离。

权利要求:1.一种基于RGB-D相机的人脸识别辅助眼镜,其特征在于,包括眼镜本体、以及固定在眼镜本体上的彩色相机、深度相机、USB集线器、小型处理器、骨传导耳机和电池;彩色相机和深度相机的姿态角一致,且通过USB集线器与小型处理器相连,电池模块与小型处理器相连。骨传导耳机与小型处理器相连,彩色相机、深度相机、小型处理器和骨传导耳机均通过电池供电;两个相机分布固定在两个镜片的正上方,USB集线器和电池嵌入式安装在左镜脚内,小型处理器嵌入式安装在右镜脚内。彩色相机和深度相机获取到的彩色图像和深度图像通过USB传输到小型处理器,小型处理器将采集的图像进行校正后,与人脸数据库进行匹配,实现人脸识别,并将识别结果通过骨传导耳机进行播放,实现人脸识别辅助。2.根据权利要求1所述的人脸识别辅助眼镜,其特征在于,通过以下方法进行人脸识别辅助:I人脸的录入和人脸数据库的建立;2人脸图像的矫正;3神经网络训练;4采集人脸并进行人脸识别;53D立体声用于识别结果的交互。3.根据权利要求2所述的人脸识别辅助眼镜,其特征在于,所述步骤I具体为:针对每一个识别对象,通过彩色相机和深度相机采集多帧连续图像,小型处理器根据彩色相机采集的多帧连续图像,通过RGB-D中的彩色图像通道检出人脸图像,以第一帧中检出的人脸图像作为人脸跟踪的初始化起点。若在第η帧中出现人脸漏检或检测错误,则可以启动人脸跟踪模式,检出人脸的区域。录入所有识别对象的人脸图像数据和对应的姓名,建立人脸数据库。所述人脸跟踪模式包括以下步骤:第一,在第η-1帧的人脸检出情况下,分别计算彩色图和深度图中的人脸区域的直方图。彩色直方图的横坐标为色度值,纵坐标为每个色度值对应的像素的个数;深度直方图的横坐标为深度值,纵坐标为每个深度值对应的像素的个数。第二,在第η帧中,计算彩色图和深度图的返向投影图。彩色图对应的返向投影图是将彩色图中的每个像素点的色度值替换为彩色直方图中对应的纵坐标而获得;深度图对应的返向投影图是将深度图中的每个像素点的深度值替换为深度直方图中对应的纵坐标而获得。将两个返向投影图融合后,得到更符合实际情况的人脸区域预测。第三,在融合后的返向投影图中,应用均值漂移算法MeanShift,计算出第η帧人脸的区域。4.根据权利要求2所述的人脸识别辅助眼镜,其特征在于,所述步骤⑵具体为:第一,调整人脸图像的格式为统一大小,即100像素*100像素。第二,检出人脸区域的特征点,所述特征点包括脸颊轮廓、眼睛、眉毛、鼻子、嘴巴。所述特征点的检出是基于彩色图像的。第三,以具有上述特征点的三维人脸模型为基准坐标系,根据彩色图像中的特征点位置,对RGB-D进行坐标标定,得到相机坐标系。第四,三维模型中的所有点被投影到所述相机坐标系中。第五,将彩色图像投影到相机坐标系下的三维模型中,赋予每个点的RGB信息;第六,对赋值后的三维模型进行正面投影,得到矫正后的人脸图像。第七,转彩色人脸图像为灰度图,并做直方图均衡化处理。5.根据权利要求2所述的人脸识别辅助眼镜,其特征在于,所述步骤3具体为:矫正得到的人脸图像,大小统一为100像素*100像素,可以视作一个10000维的向量。然后通过主成分分析PCA进行降维处理。每一个人脸对应一个由O和I组成的数据标签,第m个人脸的数据标签为[ai,a2,"_am,...ak],其中,am=l,其余为0,k为人脸总数;以降维后的数据作为输入,数据标签作为输出,用反向传播算法BP训练神经网络模型。6.根据权利要求2所述的人脸识别辅助眼镜,其特征在于,通过以下方法进行识别:采集待识别的人脸图像,经过所述矫正、降维处理,再输入训练好的神经网络,在输出向量的各个元素中,若只有一个是大于所述阈值0.5的,则判定输入数据所属的类别为此向量元素对应的类;若有多于一个元素的值大于阈值或所有元素的值都小于阈值,则判定输入数据不属于训练时的数据集,在人脸识别中即为陌生人。7.根据权利要求2所述的方法,其特征在于,通过以下方法交互:根据步骤4识别的人脸,获得其姓名,进一步根据深度图可以获知其方位和距离;通过骨传导耳机以3D声音播放姓名给使用者,3D声音的角度用于指示人脸的方位,3D声音的大小用于指示人脸的距离。

百度查询: 杭州视氪科技有限公司 一种基于RGB-D相机的人脸识别辅助眼镜

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。