买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于事件相机的多粒度时空特征感知的唇读方法_中国科学技术大学_202210484754.3 

申请/专利权人:中国科学技术大学

申请日:2022-05-06

公开(公告)日:2024-04-02

公开(公告)号:CN114882590B

主分类号:G06V40/20

分类号:G06V40/20;G06V10/82;G06V10/80;G06N3/0464;G06N3/045;G06N3/0442;G06N3/084

优先权:

专利状态码:有效-授权

法律状态:2024.04.02#授权;2022.08.26#实质审查的生效;2022.08.09#公开

摘要:本发明公开了一种基于事件相机的多粒度时空特征感知的唇读方法,包括:1、首次提出了基于事件相机的唇读技术方案;2、根据事件流信号的特性,将原始异步信号流数据转换成了多时间分辨率事件帧;3.构建了一个双流网络来提取不同粒度的时空特征,其中高时间分辨率分支提取精细的时间特征,低时间分辨率提取完整的空间特征;4.构建序列模型进行特征序列解码,将特征提取网络提取到的多粒度时空特征解码为事件流信号对应的单词的概率。本发明所提出的基于事件相机的唇读方案能够解决传统相机进行唇读时存在的视频时间分辨率低、视觉冗余信息多、极端光照条件下性能差以及实际部署时设备功耗大的问题。

主权项:1.一种基于事件相机的多粒度时空特征感知的唇读方法,其特征在于,包括如下步骤:步骤一、基于事件相机的唇读数据收集和预处理:利用事件相机采集唇读数据,并将所述唇读数据分割为单词级别的样本,将每个样本的空间分辨率裁剪为H×W的维度,H和W分别为高度和宽度;令第i个样本包含的异步事件流为其中,xik,yik,tik,pik分别表示第i个样本中第k个事件的横坐标、纵坐标、产生的时间戳和极性,ni表示第i个样本包含的事件总数;对第i个样本重复拍摄多次,并将拍摄到的所有样本记为单词集合wi;且单词集合wi中的单词属于单词表;令单词表中包含的单词总数为V;令mv表示所述单词表中任意一个单词的序号;从而构建基于事件相机的唇读数据集其中,N表示数据集的样本数量;步骤二、将异步事件流信号转换成多时间分辨率的事件帧:将第i个样本中的异步事件流Ei中的时间戳tik缩放到[0,T-1]范围内,再利用式1将所述异步事件流Ei转换成同步事件帧Vi: 式1中,t∈{0,1,...,T-1}表示第t个事件帧,T表示转换之后的事件帧数,y∈{0,1,...,H-1}表示同步事件帧Vi的像素纵坐标,x∈{0,1,...,W-1}表示同步事件帧Vi的像素横坐标,表示第i个样本中的第k个事件进行时间缩放之后的时间戳,并由式2得到: 式2中,ti1表示第i个样本的第一个事件的时间戳,表示第i个样本最后一个事件的时间戳,通过选取不同的T,得到两种不同的时间分辨率{Thigh,Tlow},其中,Thigh表示高时间分辨率,Tlow表示低时间分辨率;从而将第i个样本的异步事件流Ei转换成两个事件帧序列并作为一个事件样本,其中,表示高时间分辨率事件帧序列,表示低时间分辨率事件帧序列;进而由N个样本的异步事件转换成两个事件帧序列构成训练数据集;步骤三、多粒度时空特征感知:步骤3.1、每次从所述训练数据集中选取b个事件样本,分别转换成多分辨率事件帧之后得到一个批处理数据其中,表示批处理数据中第j个事件样本对应的高时间分辨率事件帧序列,表示批处理数据中第j个事件样本对应的低时间分辨率事件帧序列,wj表示批处理数据中第j个事件样本对应的单词类别;步骤3.2、构建双流网络提取细粒度时空特征;所述双流网络包含一个低时间分辨率分支、一个高时间分辨率分支以及一个信息流动模块;所述低时间分辨率分支和高时间分辨率分支均是由一层卷积核为n1×n2×n2的3D卷积层和一个ResNet-18深度学习网络构成;所述ResNet-18深度学习网络包括4个各阶段,每个阶段包含2个残差块,每个残差块均由两层卷积核为n3×n3的卷积层组成;令低时间分辨率分支中卷积的通道数为高时间分辨率分支中卷积的通道数的n倍;在所述ResNet-18的每个阶段之后级联一个信息流动模块;每个信息流动模块由一层卷积核为n4×1×1的卷积层、一层卷积核为n3×n3的卷积层、一个注意力计算模块组成;所述注意力计算模块包含一个局部注意力计算模块和一个全局注意力计算模块;所述局部注意力计算模块由两层卷积核为n3×n3的卷积层组成,全局注意力计算模块由一个平均池化模块和两层卷积核为n3×n3的卷积层组成,将全局计算注意力和局部计算注意力的输出结构相加后再经过一个Sigmoid函数并得到最终的注意力图;步骤3.3、将所述批处理数据输入所述双流网络中,其中,低时间分辨率事件帧序列输入到低时间分辨率分支,高时间分辨率事件帧序列输入到高时间分辨率分支;并在经过ResNet-18的每个阶段之后通过信息流动模块进行特征融合,高时间分辨率的特征先通过一层卷积核为n4×1×1的卷积层进行降维,得到降维之后的高时间分辨率特征再与低时间分辨率的特征进行拼接,得到的拼接特征并经过一层卷积核为n3×n3的卷积层后得到初步融合的特征,所述初步融合的特征输入所述注意力计算模块进行计算后得到注意力图,将所述注意力图与所述初步融合的特征进行逐元素相乘之后再与所述低时间分辨率的特征相加,得到的结果再与所述降维之后的高时间分辨率特征拼接作为最终的融合特征;最终的融合特征作为低时间分辨率分支下一阶段的输入,高时间分辨率分支当前阶段的输出特征作为下一阶段的输入特征,从而由所述双流网络输出细粒度时空特征为其中Co表示输出特征的维度;步骤四、序列模型:步骤4.1、构建时空特征序列解码网络;所述时空特征序列解码网络由3层双向GRU网络、一个平均池化层、一个全连接层、一个Softmax函数组成;步骤4.2、将双流网络提取到的细粒度时空特征输入所述时空特征序列解码网络,并输出b个事件样本所对应的单词的概率其中,Pj表示第j个样本对应输出概率,且表示批处理数据中第j个事件样本被分类为第mv个单词的概率;步骤五、网络训练:基于梯度下降法对所述双流网络进行训练,并计算如式3所示的损失函数L,用于更新网络参数,直到网络的损失达到收敛为止,从而得到最优识别精度的唇读网络: 式3中,表示第j个事件样本被预测为正确标签的概率。

全文数据:

权利要求:

百度查询: 中国科学技术大学 一种基于事件相机的多粒度时空特征感知的唇读方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。