买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种实时检测眼球注意力位置的方法及系统_的卢技术有限公司_201911371128.8 

申请/专利权人:的卢技术有限公司

申请日:2019-12-26

公开(公告)日:2024-04-09

公开(公告)号:CN111209811B

主分类号:G06T7/73

分类号:G06T7/73;G06V40/18;G06V40/16;G06V10/26;G06V10/44;G06V10/80;G06V10/82;G06N3/0464

优先权:

专利状态码:有效-授权

法律状态:2024.04.09#授权;2023.11.17#著录事项变更;2020.06.23#实质审查的生效;2020.05.29#公开

摘要:本发明公开了一种实时检测眼球注意力位置的方法及系统,包括以下步骤,图像采集模块分别获取人物对象的原始图片;所述原始图片输入opencv经过分割计算后输出输入数据;根据所述输入数据对应构建神经网络结构模型;采集标注训练数据;所述训练数据输入所述神经网络结构模型中进行模型训练并完成模型的训练参数设置;预测结果处理模块将所述神经网络结构模型生成的预测结果还原为原尺寸。本发明的有益效果:提升眼睛轮廓边缘识别精度,较传统识别结果有极大提高;以双眼瞳孔中心点为原点建立直角坐标系,可以准确地识别除左右两个方向外,眼球注意力在四个象限的准确位置,实用程度极大提高。

主权项:1.一种实时检测眼球注意力位置的方法,其特征在于:包括以下步骤,图像采集模块100分别获取人物对象的原始图片;所述原始图片输入opencv经过分割计算后输出输入数据;根据所述输入数据对应构建神经网络结构模型200;采集标注训练数据;所述训练数据输入所述神经网络结构模型200中进行模型训练并完成模型的训练参数设置;预测结果处理模块300将所述神经网络结构模型200生成的预测结果还原为原尺寸,预测结果处理模块300以原始图片中获取的双眼瞳孔中心点为原点,建立直角坐标系,并返回眼球注意力位置的准确信息;除了左右方向外,所述预测结果处理模块300能够精确识别眼球注意力在四个象限的位置;根据所述输入数据对应构建神经网络结构模型,包括以下获取步骤,将所述原始图片经过opencv的haarcascade模型分割出左眼、右眼和脸部3幅图片,并同时计算出人脸在画面中所占的位置;将左眼图片、右眼图片、脸部图片和脸部网格共4个输入数据传递至所述神经网络结构模型200;输入opencv的图片为所述图像采集模块100采集到的所述原始图片,且所述原始图片的分辨率1920x1080,以及通道数分别为r、g、b3个;所述神经网络结构模型200包括以下构建步骤,所述原始图片的数据获取;所述神经网络结构模型200的输入数据准备;构建所述神经网络结构模型200神经网络结构单元;所述神经网络结构模型200的输入数据准备还包括,左眼、右眼的图片分割获取包括将所述原始图片输入opencv的haarcascade_eye眼部识别单元,得到左右眼的两组x、y、w、h坐标,根据坐标切割出左右眼两幅图片;脸部图片分割获取包括将所述原始图片输入opencv的haarcascade_frontface面部识别单元,获取面部的x、y、w、h四个坐标,根据坐标切割出面部图片;脸部网格的获取包括将所述原始图片平均分成5x5的网格,每个网格中若面部占比超过50%,则将该网格位置标注为1否则标注为0,得到大小为5x5的面部位置mask;神经网络结构前半部分由四个通道构成:左眼通道:该通道包含四个卷积层,提取左眼特征;右眼通道:该通道同样包含四个卷积层,与左眼通道共享参数;面部通道:该通道结构与左右眼通道相同,但不共享参数;位置通道:该通道没有卷积层;上述四个通道的数据经过拉直、合并之后,进入最终的FC层,输出两个结果,即为眼球注意力所在位置的x、y坐标;最终FC层的输入维度为256,即左眼特征、右眼特征、脸部特征、脸部网格四个特征向量合并后的维度,输出维度为2;所述神经网络结构单元包括左右眼特征提取网络结构、面部特征提取网络结构和特征合并,其中所述特征合并包括将左、右眼特征图拉直、再将面部特征图拉直以及脸部位置mask结果拉直,将四者合并最终输出二维结果,代表所述眼球注意力位置为原点坐标系上的x和y;所述左右眼特征提取网络结构如下:CONV-E1:kernal_size11*11filter_number96CONV-E2:kernal_size5*5filter_number256CONV-E3:kernal_size3*3filter_number384CONV-E4:kernal_size1*1filter_number64E1-E4为4层卷积操作,kernal_size为卷积核大小,这里分别是11*11、5*5、3*3、1*1大小的矩阵;Filter_number为卷积核数量,即输出Tensor的维度;所述面部特征提取网络结构如下:参数同眼部特征提取网络,即:CONV-F1:kernal_size11*11filter_number96CONV-F2:kernal_size5*5filter_number256CONV-F3:kernal_size3*3filter_number384CONV-F4:kernal_size1*1filter_number64F1-F4为4层卷积操作,kernal_size为卷积核大小,这里分别是11*11、5*5、3*3、1*1大小的矩阵;Filter_number为卷积核数量,即输出Tensor的维度;所述标注训练数据包括以下采集步骤,采用方格板作为标尺;采集观测者面部图片,观测者每次注视方格板中的一个点,拍摄观测者面部照片的同时,记录下其所注视的格子,所述方格板共计30个格子,每人采集30张面部照片和对应的格子位置;随机选取10名观测者,重复上述操作,得到300张1920x1080分辨率的图片和同样数量的相对应的格子位置;将图片保存在img目录下,格子位置换算成坐标系后保存在label目录下。

全文数据:

权利要求:

百度查询: 的卢技术有限公司 一种实时检测眼球注意力位置的方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。