【发明授权】基于中文发音视觉特点的唇语识别方法_南京航空航天大学_202011178528.X

导航：龙图腾网> 最新专利技术> 基于中文发音视觉特点的唇语识别方法_南京航空航天大学_202011178528.X

申请/专利权人：南京航空航天大学

申请日：2020-10-29

公开（公告）日：2024-04-02

公开（公告）号：CN112329581B

主分类号：G06V40/20

分类号：G06V40/20;G06V10/44;G06V10/764;G06V10/82;G06N3/0464;G06N3/0455;G06N3/0442;G06F40/129;G06F40/289

优先权：

专利状态码：有效-授权

法律状态：2024.04.02#授权;2021.02.26#实质审查的生效;2021.02.05#公开

摘要：本发明公开一种基于中文发音视觉特点的唇语识别方法，包括以下步骤，首先，通过对拼音的视觉呈现进行分类，归纳得到的结果被命名为视觉拼音；然后，建立一个二级结构的中文句子级唇语识别模型，整体结构基于带有注意机制的序列到序列模型，将唇语识别过程划分为两个阶段：第一阶段将上述视觉拼音作为建模单元，通过卷积神经网络提取嘴唇视觉特征，对特征向量进行编码解码得到视觉拼音序列，第二阶段同时输入视觉拼音序列和第一阶段编码得到的嘴唇特征向量，最终将视觉拼音翻译成汉字语句。本发明实施于中文唇语识别，相比于用唇部特征直接识别汉字或通过拼音序列间接识别汉字，采用本发明的技术方案将有效提高唇语识别准确率。

主权项：1.一种基于中文发音视觉特点的唇语识别方法，其特征在于，包括以下步骤：步骤1，将64×80像素的视频帧序列x1,x2,…,xm输入到一个10层的卷积神经网络，提取得到512维的嘴唇特征向量；步骤2，以拼音作为建模单元，将嘴唇特征向量输入到带有注意机制的序列到序列模型，得到汉语拼音序列；步骤3，重复步骤1和步骤2，为预测得到的拼音序列中的声母和与之对应的实际拼音序列中的声母建立混淆矩阵，通过对声母的混淆程度进行归类，得到视觉拼音与对应拼音的映射关系；所述步骤3中对拼音的视觉呈现进行归类，实则是对汉语音素的归类，汉语音素分为元音和辅音，辅音中包含了所有的声母，元音在嘴型上是不容易混淆的，所以只对辅音即声母进行归类，归类后得到的视觉拼音与对应拼音的映射关系如下：视觉拼音B，对应的拼音b,p,m；视觉拼音F，对应的拼音f；视觉拼音D，对应的拼音d,t,声母n,l；视觉拼音G，对应的拼音g,k,h；视觉拼音J，对应的拼音j,q,x；视觉拼音R，对应的拼音zh,ch,sh,r,zhi,chi,shi,ri；视觉拼音Z，对应的拼音z,c,s,zi,ci,si；视觉拼音I，对应的拼音i,y,yi；视觉拼音U，对应的拼音u,w,wu；视觉拼音V，对应的拼音ü,yu；视觉拼音a，对应的拼音a；视觉拼音o，对应的拼音o；视觉拼音e，对应的拼音e；视觉拼音E，对应的拼音er；视觉拼音n，对应的拼音韵母n；视觉拼音N，对应的拼音ng；步骤4，将步骤2中的建模单元替换成步骤3中得到的视觉拼音，重新对模型进行训练，将重新训练得到的模型命名为视觉拼音预测模型V2VP，V2VP的作用是将步骤1中的视频帧序列表达成视觉拼音序列；步骤5，以汉字词作为建模单元，将短视频对应的正确的视觉拼音序列输入到带有注意机制的序列到序列模型中，最终得到汉字序列c1,c2,…,cl，该模型被命名为汉字预测模型VP2H；步骤6，结合步骤4中的视觉拼音预测模型V2VP和步骤5中的汉字预测模型VP2H，得到一个端到端的中文句子级唇语识别模型CHSLR-VP，向中文句子级唇语识别模型CHSLR-VP中输入步骤1生成的嘴唇特征向量，首先得到与视频相对应的视觉拼音序列，再对视觉拼音进行翻译，最终得到短视频中说话者的讲话内容。

全文数据：

权利要求：

百度查询：南京航空航天大学基于中文发音视觉特点的唇语识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种注塑机新型泵罩门板_恩格尔注塑机械(常州)有限公司_202322227242.1

下一篇：摄像头安装组件和应用其的仪表屏_深圳市航盛电子股份有限公司_202322569773.9

相关技术

一种注塑机新型泵罩门板_恩格尔注塑机械(常州)有限公司_202322227242.1

摄像头安装组件和应用其的仪表屏_深圳市航盛电子股份有限公司_202322569773.9

一种基于区块链技术的危险废物监管装置_上海博优环境科技发展有限公司_202322288382.X

一种叠瓦电池片检测用工装_江苏龙恒新能源有限公司_202322351795.8

一种大米加工砂辊碾米机_湖北九龙湖米业有限公司_202322482168.8

一种防堵污水管道_浩卓泵业(杭州)有限公司_202322092893.4

一种印刷电路板加工用压膜装置_南通欧贝达电子科技有限公司_202322176231.5

一种火车集卡装卸装置_杭州奥拓机电股份有限公司_202322190678.8

夹具_新疆蓝晶新材料科技有限公司_202322100063.1

一种用于土地规划用测量装置_西安市城市发展资源信息有限公司_202322290527.X

一种具有服药求助警报功能的药丸储存项链_杨洁_202322091839.8

一种现调机用消毒装置_中粮可口可乐饮料(山西)有限公司_202322565837.8

龙图腾网&IPTOP

【发明授权】基于中文发音视觉特点的唇语识别方法_南京航空航天大学_202011178528.X

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务