【发明授权】一种汉语唇语单音节识别分类器构建方法_中国矿业大学(北京)_202010395570.0

导航：龙图腾网> 最新专利技术> 一种汉语唇语单音节识别分类器构建方法_中国矿业大学(北京)_202010395570.0

申请/专利权人：中国矿业大学(北京)

申请日：2020-05-12

公开（公告）日：2024-01-26

公开（公告）号：CN111582195B

主分类号：G06V40/16

分类号：G06V40/16;G06V10/84;G06V10/82;G06N3/0442;G06N3/09

优先权：

专利状态码：有效-授权

法律状态：2024.01.26#授权;2020.09.18#实质审查的生效;2020.08.25#公开

摘要：本发明公开了一种汉语唇语单音节识别分类器构建方法，包括步骤：S1、采集待识别汉字单音节的发音视频；S2、构建唇部特征点标注图像样本集；S3、训练唇部特征点提取模型；S4、将所录制的每个汉语单音节发音视频均匀切分得到若干帧采样图像；S5、利用训练所得的唇部特征点提取模型对所得的每一帧采样图像分别进行特征点提取；S6、根据所得的唇部特征点集，分别构建每一帧图像的唇部几何特征；S7、将所得的属于同一发音视频的全部的新的几何特征序列按顺序保存，并标明所属类别；S8、利用所得每个发音视频的特征矩阵，训练得到唇语识别器。利用本发明可以实现汉语唇语识别，而且具有较高准确率。

主权项：1.一种汉语唇语单音节识别分类器构建方法，其特征在于，包括如下步骤：S1、采集待识别汉字单音节的发音视频；S2、构建唇部特征点标注图像样本集：所述唇部特征点标注图像样本集的原始图像包括来自步骤S1中筛选的发音视频，还包括来自其他视频的采样，图像中要求唇部信息完整，即唇部轮廓清晰可见；为每一幅原始图像的唇部边缘手工标注20个特征点得到唇部特征点标注图像，所有唇部特征点标注图像的集合为唇部特征点标注图像样本集；特征点包括两侧唇角的外沿点C1、C2，两侧唇角的内沿点C3、C4，两个唇峰的上唇外沿最高点U3、U5；两个唇峰间的上唇外沿最低点U4，C1与U3之间的上唇外沿中间点U2，C2与U5之间的上唇外沿中间点U6，上唇内沿点U7、U8，下唇外沿点L2、L3、L4、L5、L6；下唇内沿点L7、L8；U3与U7所在直线垂直于C3与C4所在直线，U5与U8所在直线垂直于C3与C4所在直线；L2为C1与L3之间的下唇外沿中间点，L5与U5所在直线垂直于C1与C2所在直线，L6与U6所在直线垂直于C1与C2所在直线；L6为C2与L5之间的下唇外沿中间点；L4为C1与C2之间的下唇外沿中间点；L7与U7所在直线垂直于C3与C4所在直线，L8与U8所在直线垂直于C3与C4所在直线；S3、训练唇部特征点提取模型：训练集的唇部向量为：xi＝xi0,yi0,xi1,yi1,...,xi19,yi19T；式中，xi表示第i幅唇部特征点标注图像中的所有特征点构成的唇部向量，xik，yik表示图像中第k个特征点的横、纵坐标；训练唇部特征点提取模型的具体步骤为：S3.1、从唇部特征点标注图像样本集中选择一个唇部模型作为基准模型，将唇部特征点标注图像样本集中其他所有唇部模型对齐到基准模型，对齐是指将一系列唇部模型通过旋转、平移、缩放变换，在不改变模型的基础上对齐到基准模型上；S3.2、计算平均唇部模型；S3.3、将唇部特征点标注图像样本集中所有唇部模型对齐到步骤S3.2计算得到的平均唇部模型；S3.4、重复步骤S3.2-S3.3直到收敛，收敛的条件为使下式最小化：Ej＝xi-Msj,θj[xj]-tjTWxi-Msj,θj[xj]-tj；式中，xi、xj为第i幅和第j幅唇部特征点标注图像中的所有特征点构成的唇部向量，i≠j；sj表示第j幅唇部特征点标注图像的唇部模型的缩放系数；Msj,θj[xj]为第j幅唇部特征点标注图像的唇部模型的变化函数；tj表示第j幅唇部特征点标注图像的唇部模型的平移向量，tj＝txj1,tyj1,…,txjn,tyjnT，txjm,tyjm,m＝1,2,…,n,分别表示第j幅唇部特征点标注图像的唇部模型每个点的横坐标和纵坐标的偏移量，每个点的横坐标和纵坐标的偏移量相等；θj表示第j幅唇部特征点标注图像的唇部模型的旋转系数；W为一个对角矩阵，其对角线中的每一项为k表示唇部模型中的一个特征点，其中，n为唇部模型中特征点的个数，Rkl表示唇部模型中两个特征点k和l之间的距离；表示距离Rkl的方差；S4、将步骤S1中采集的待识别汉语单音节发音视频均匀切分得到采样图像；S5、利用步骤S3训练所得的唇部特征点提取模型对步骤S4所得的每一帧采样图像分别进行特征点提取，提取过程具体为：S5.1、对唇部特征点提取模型进行仿射变换得到一个初始模型：X＝MTp+Xc；该式表示对唇部特征点提取模型通过仿射变换Tp以及平移Xc得到初始模型X；S5.2、使用初始模型X在步骤S4所得的每一帧图像中搜索目标形状，使搜索到的最终形状中的特征点和相对应的真正特征点最为接近；每一帧图像提取得到的特征点构成唇部特征点集；S6、根据步骤S5所得的唇部特征点集，分别构建每一帧图像的唇部几何特征；根据两点之间距离，构建几何特征序列X＝W1,W2,…,W8,H1,H2,H3如下：W1＝DC1,C2；W2＝DU2,U6；W3＝DU3,U5；W4＝DL2,L6；W5＝DL3,L5；W6＝DC3,C4；W7＝DU7,U8；W8＝DL7,L8；H1＝DU2,L2；H2＝DU3,L3；H3＝DU4,L4；其中，W1,W2,…,W8,H1,H2,H3为人为设定的几何特征名称；按顺序组合所得的几何特征序列，得到同一汉语单音节发音视频的11维几何特征；将同一汉语单音节发音视频的图像的几何特征保存并归一化；将每个几何特征序列X＝W1,W2,…,W8,H1,H2,H3线性组合μ得到一组新的几何特征序列Y＝Y1,Y2,…,Y7：Y＝μXT；T为转置符；S7、将步骤S6中所得的新的属于同一发音视频的帧的全部几何特征序列按顺序保存，并标明所属类别，得到每个发音视频的特征矩阵；类别为人为设定，以整数f为类别标签f＝0,1,2,…；S8、利用步骤S7所得每个发音视频的特征矩阵，训练得到唇语识别器。

全文数据：

权利要求：

百度查询：中国矿业大学(北京) 一种汉语唇语单音节识别分类器构建方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种卷帘门帘片成型机_重庆久广门业有限公司_202322413811.1

下一篇：一种洗涤设备_重庆海尔洗衣机有限公司_202321535727.0

相关技术

一种卷帘门帘片成型机_重庆久广门业有限公司_202322413811.1

一种洗涤设备_重庆海尔洗衣机有限公司_202321535727.0

一种具有安全防护的桥梁施工操作台_博信达建设集团有限公司_202322675828.4

一种饮料包装盒的快速消毒装置_赵唐玉玥_202322121652.8

一种带防撞装置的压力机工作台_扬州蔚来机械装备制造有限责任公司_202322611255.9

一种梳式烟夹的胶头自动组装设备_广州阿尔法精密机械有限公司_202322475952.6

一种新型带束层鼓防错灯标装置_赛轮(沈阳)轮胎有限公司_202322401683.9

一种吸音降噪窗帘面料_江苏洲际家居科技有限公司_202322672664.X

一种点火线圈密封结构_一汽解放汽车有限公司_202322812056.4

一种人参肽粉研磨设备_上海中盈经济发展(集团)有限公司_202322368406.2

一种可收集粉尘的切割机_安徽楚风建设有限公司_202321187487.X

涨紧机构及包含该机构的内模组件_江苏江扬建材机械有限公司_202322625490.1

识别相关技术

结构识别模型训练、模型结构识别方法、设备及介质_北京燧原智能科技有限公司_202410090059.8

拉丝枪自动识别电路、识别方法及电焊机系统_深圳市瑞凌实业股份有限公司_201711345496.6

模型剪枝方法、人脸识别模型训练方法及人脸识别方法_苏州元脑智能科技有限公司_202311803044.3

标签识别网络的训练方法、标签识别装置/方法及设备_京东方科技集团股份有限公司_201811353105.X

文字识别模型训练及其识别方法、装置、设备和介质_北京百度网讯科技有限公司_202310002789.3

一种楼宇门禁识别器_江苏卓茂智能科技有限公司_202322029488.8

基于称重的手卫生识别装置_昂科信息技术(上海)股份有限公司_202322729429.1

语音识别歧义消除方法及装置_青岛海尔电冰箱有限公司_202211290249.1

识别传感器及其控制方法、汽车、车辆用灯具、对象识别系统、对象的识别方法_株式会社小糸制作所_201880053552.5

一种用于唇语识别的智能手环、唇语识别系统及方法_中国银行股份有限公司_202010916908.2

单音节相关技术

逻辑推理知识引导强化的低资源无监督音节划分方法_昆明理工大学_202410159714.0

一种单音信号的检测方法_深圳智微电子科技股份有限公司_202110374186.7

一种基于单音测角修正的波束赋型方法_上海瀚讯信息技术股份有限公司_202311593888.X

一种播音室墙体软包饰面隔音节点结构_武汉建工华达建筑装饰设计工程有限公司_202321999807.1

基于ZYNQ的信噪比与带宽可控单音信号产生器及方法_成都威频通讯技术有限公司_202410024375.5

单音信号频率检测方法、装置、设备及计算机存储介质_力同科技股份有限公司_201910578565.0

一种静音节能无负压全变频供水设备_上海弛泉科技(集团)有限公司_202210843176.8

音频单音色分离方法、装置、计算机设备及存储介质_平安科技(深圳)有限公司_201910511337.1

使用无监督机器学习来定位用于回声定位的空间化声音节点_微软技术许可有限责任公司_201980076681.0

一种基于FFT分析的单音信号功率准确度提升方法_成都坤恒顺维科技股份有限公司_202311583335.6

分类相关技术

图像分类方法、图像分类模型的训练方法及装置_腾讯科技(深圳)有限公司_202210102561.7

账户分类模型训练方法及装置和账户分类方法及装置_百度在线网络技术(北京)有限公司_201910324589.3

一种分类筛沙机_孙锋_202322157347.4

一种基于细胞骨架图像定量分析的细胞图像分类方法及其分类器_上海大学_202111001522.X

一种能够快速分类的码垛装置_济南昊中智能科技有限公司_202322772854.9

文档分类方法、装置及电子设备_北京百度网讯科技有限公司_202110737169.5

广告分类评估方法、装置及存储介质_蓝色火焰科技成都有限公司_202410161898.4

包括自动特征检测和分类的检查工具_米沃奇电动工具公司_202280047516.4

一种石灰岩矿物质加工用矿石分类装置_淳安县元洋实业有限公司_202322168294.6

一种便于使用的分类档案管理柜_山西水利职业技术学院_202321858991.8

龙图腾网&IPTOP

【发明授权】一种汉语唇语单音节识别分类器构建方法_中国矿业大学(北京)_202010395570.0

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务