买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种汉语唇语单音节识别分类器构建方法_中国矿业大学(北京)_202010395570.0 

申请/专利权人:中国矿业大学(北京)

申请日:2020-05-12

公开(公告)日:2024-01-26

公开(公告)号:CN111582195B

主分类号:G06V40/16

分类号:G06V40/16;G06V10/84;G06V10/82;G06N3/0442;G06N3/09

优先权:

专利状态码:有效-授权

法律状态:2024.01.26#授权;2020.09.18#实质审查的生效;2020.08.25#公开

摘要:本发明公开了一种汉语唇语单音节识别分类器构建方法,包括步骤:S1、采集待识别汉字单音节的发音视频;S2、构建唇部特征点标注图像样本集;S3、训练唇部特征点提取模型;S4、将所录制的每个汉语单音节发音视频均匀切分得到若干帧采样图像;S5、利用训练所得的唇部特征点提取模型对所得的每一帧采样图像分别进行特征点提取;S6、根据所得的唇部特征点集,分别构建每一帧图像的唇部几何特征;S7、将所得的属于同一发音视频的全部的新的几何特征序列按顺序保存,并标明所属类别;S8、利用所得每个发音视频的特征矩阵,训练得到唇语识别器。利用本发明可以实现汉语唇语识别,而且具有较高准确率。

主权项:1.一种汉语唇语单音节识别分类器构建方法,其特征在于,包括如下步骤:S1、采集待识别汉字单音节的发音视频;S2、构建唇部特征点标注图像样本集:所述唇部特征点标注图像样本集的原始图像包括来自步骤S1中筛选的发音视频,还包括来自其他视频的采样,图像中要求唇部信息完整,即唇部轮廓清晰可见;为每一幅原始图像的唇部边缘手工标注20个特征点得到唇部特征点标注图像,所有唇部特征点标注图像的集合为唇部特征点标注图像样本集;特征点包括两侧唇角的外沿点C1、C2,两侧唇角的内沿点C3、C4,两个唇峰的上唇外沿最高点U3、U5;两个唇峰间的上唇外沿最低点U4,C1与U3之间的上唇外沿中间点U2,C2与U5之间的上唇外沿中间点U6,上唇内沿点U7、U8,下唇外沿点L2、L3、L4、L5、L6;下唇内沿点L7、L8;U3与U7所在直线垂直于C3与C4所在直线,U5与U8所在直线垂直于C3与C4所在直线;L2为C1与L3之间的下唇外沿中间点,L5与U5所在直线垂直于C1与C2所在直线,L6与U6所在直线垂直于C1与C2所在直线;L6为C2与L5之间的下唇外沿中间点;L4为C1与C2之间的下唇外沿中间点;L7与U7所在直线垂直于C3与C4所在直线,L8与U8所在直线垂直于C3与C4所在直线;S3、训练唇部特征点提取模型:训练集的唇部向量为:xi=xi0,yi0,xi1,yi1,...,xi19,yi19T;式中,xi表示第i幅唇部特征点标注图像中的所有特征点构成的唇部向量,xik,yik表示图像中第k个特征点的横、纵坐标;训练唇部特征点提取模型的具体步骤为:S3.1、从唇部特征点标注图像样本集中选择一个唇部模型作为基准模型,将唇部特征点标注图像样本集中其他所有唇部模型对齐到基准模型,对齐是指将一系列唇部模型通过旋转、平移、缩放变换,在不改变模型的基础上对齐到基准模型上;S3.2、计算平均唇部模型;S3.3、将唇部特征点标注图像样本集中所有唇部模型对齐到步骤S3.2计算得到的平均唇部模型;S3.4、重复步骤S3.2-S3.3直到收敛,收敛的条件为使下式最小化:Ej=xi-Msj,θj[xj]-tjTWxi-Msj,θj[xj]-tj; 式中,xi、xj为第i幅和第j幅唇部特征点标注图像中的所有特征点构成的唇部向量,i≠j;sj表示第j幅唇部特征点标注图像的唇部模型的缩放系数;Msj,θj[xj]为第j幅唇部特征点标注图像的唇部模型的变化函数;tj表示第j幅唇部特征点标注图像的唇部模型的平移向量,tj=txj1,tyj1,…,txjn,tyjnT,txjm,tyjm,m=1,2,…,n,分别表示第j幅唇部特征点标注图像的唇部模型每个点的横坐标和纵坐标的偏移量,每个点的横坐标和纵坐标的偏移量相等;θj表示第j幅唇部特征点标注图像的唇部模型的旋转系数;W为一个对角矩阵,其对角线中的每一项为k表示唇部模型中的一个特征点,其中,n为唇部模型中特征点的个数,Rkl表示唇部模型中两个特征点k和l之间的距离;表示距离Rkl的方差;S4、将步骤S1中采集的待识别汉语单音节发音视频均匀切分得到采样图像;S5、利用步骤S3训练所得的唇部特征点提取模型对步骤S4所得的每一帧采样图像分别进行特征点提取,提取过程具体为:S5.1、对唇部特征点提取模型进行仿射变换得到一个初始模型:X=MTp+Xc;该式表示对唇部特征点提取模型通过仿射变换Tp以及平移Xc得到初始模型X;S5.2、使用初始模型X在步骤S4所得的每一帧图像中搜索目标形状,使搜索到的最终形状中的特征点和相对应的真正特征点最为接近;每一帧图像提取得到的特征点构成唇部特征点集;S6、根据步骤S5所得的唇部特征点集,分别构建每一帧图像的唇部几何特征;根据两点之间距离,构建几何特征序列X=W1,W2,…,W8,H1,H2,H3如下:W1=DC1,C2;W2=DU2,U6;W3=DU3,U5;W4=DL2,L6;W5=DL3,L5;W6=DC3,C4;W7=DU7,U8;W8=DL7,L8;H1=DU2,L2;H2=DU3,L3;H3=DU4,L4;其中,W1,W2,…,W8,H1,H2,H3为人为设定的几何特征名称;按顺序组合所得的几何特征序列,得到同一汉语单音节发音视频的11维几何特征;将同一汉语单音节发音视频的图像的几何特征保存并归一化;将每个几何特征序列X=W1,W2,…,W8,H1,H2,H3线性组合μ得到一组新的几何特征序列Y=Y1,Y2,…,Y7:Y=μXT;T为转置符;S7、将步骤S6中所得的新的属于同一发音视频的帧的全部几何特征序列按顺序保存,并标明所属类别,得到每个发音视频的特征矩阵;类别为人为设定,以整数f为类别标签f=0,1,2,…;S8、利用步骤S7所得每个发音视频的特征矩阵,训练得到唇语识别器。

全文数据:

权利要求:

百度查询: 中国矿业大学(北京) 一种汉语唇语单音节识别分类器构建方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。