买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于中文发音视觉特点的唇语识别方法_南京航空航天大学_202011178528.X 

申请/专利权人:南京航空航天大学

申请日:2020-10-29

公开(公告)日:2024-04-02

公开(公告)号:CN112329581B

主分类号:G06V40/20

分类号:G06V40/20;G06V10/44;G06V10/764;G06V10/82;G06N3/0464;G06N3/0455;G06N3/0442;G06F40/129;G06F40/289

优先权:

专利状态码:有效-授权

法律状态:2024.04.02#授权;2021.02.26#实质审查的生效;2021.02.05#公开

摘要:本发明公开一种基于中文发音视觉特点的唇语识别方法,包括以下步骤,首先,通过对拼音的视觉呈现进行分类,归纳得到的结果被命名为视觉拼音;然后,建立一个二级结构的中文句子级唇语识别模型,整体结构基于带有注意机制的序列到序列模型,将唇语识别过程划分为两个阶段:第一阶段将上述视觉拼音作为建模单元,通过卷积神经网络提取嘴唇视觉特征,对特征向量进行编码解码得到视觉拼音序列,第二阶段同时输入视觉拼音序列和第一阶段编码得到的嘴唇特征向量,最终将视觉拼音翻译成汉字语句。本发明实施于中文唇语识别,相比于用唇部特征直接识别汉字或通过拼音序列间接识别汉字,采用本发明的技术方案将有效提高唇语识别准确率。

主权项:1.一种基于中文发音视觉特点的唇语识别方法,其特征在于,包括以下步骤:步骤1,将64×80像素的视频帧序列x1,x2,…,xm输入到一个10层的卷积神经网络,提取得到512维的嘴唇特征向量;步骤2,以拼音作为建模单元,将嘴唇特征向量输入到带有注意机制的序列到序列模型,得到汉语拼音序列;步骤3,重复步骤1和步骤2,为预测得到的拼音序列中的声母和与之对应的实际拼音序列中的声母建立混淆矩阵,通过对声母的混淆程度进行归类,得到视觉拼音与对应拼音的映射关系;所述步骤3中对拼音的视觉呈现进行归类,实则是对汉语音素的归类,汉语音素分为元音和辅音,辅音中包含了所有的声母,元音在嘴型上是不容易混淆的,所以只对辅音即声母进行归类,归类后得到的视觉拼音与对应拼音的映射关系如下:视觉拼音B,对应的拼音b,p,m;视觉拼音F,对应的拼音f;视觉拼音D,对应的拼音d,t,声母n,l;视觉拼音G,对应的拼音g,k,h;视觉拼音J,对应的拼音j,q,x;视觉拼音R,对应的拼音zh,ch,sh,r,zhi,chi,shi,ri;视觉拼音Z,对应的拼音z,c,s,zi,ci,si;视觉拼音I,对应的拼音i,y,yi;视觉拼音U,对应的拼音u,w,wu;视觉拼音V,对应的拼音ü,yu;视觉拼音a,对应的拼音a;视觉拼音o,对应的拼音o;视觉拼音e,对应的拼音e;视觉拼音E,对应的拼音er;视觉拼音n,对应的拼音韵母n;视觉拼音N,对应的拼音ng;步骤4,将步骤2中的建模单元替换成步骤3中得到的视觉拼音,重新对模型进行训练,将重新训练得到的模型命名为视觉拼音预测模型V2VP,V2VP的作用是将步骤1中的视频帧序列表达成视觉拼音序列;步骤5,以汉字词作为建模单元,将短视频对应的正确的视觉拼音序列输入到带有注意机制的序列到序列模型中,最终得到汉字序列c1,c2,…,cl,该模型被命名为汉字预测模型VP2H;步骤6,结合步骤4中的视觉拼音预测模型V2VP和步骤5中的汉字预测模型VP2H,得到一个端到端的中文句子级唇语识别模型CHSLR-VP,向中文句子级唇语识别模型CHSLR-VP中输入步骤1生成的嘴唇特征向量,首先得到与视频相对应的视觉拼音序列,再对视觉拼音进行翻译,最终得到短视频中说话者的讲话内容。

全文数据:

权利要求:

百度查询: 南京航空航天大学 基于中文发音视觉特点的唇语识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。