买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于BN-SGMM-HMM低资源语音识别方法_辽宁大学_202110897247.8 

申请/专利权人:辽宁大学

申请日:2021-08-05

公开(公告)日:2024-04-12

公开(公告)号:CN113421555B

主分类号:G10L15/06

分类号:G10L15/06;G10L15/02;G10L15/14;G10L15/16;G10L25/24

优先权:

专利状态码:有效-授权

法律状态:2024.04.12#授权;2021.10.12#实质审查的生效;2021.09.21#公开

摘要:基于BN‑SGMM‑HMM低资源语音识别方法,在低资源条件下,将经过神经网络训练过的瓶颈特征与子空间高斯混合模型结合起来形成基线系统,组成BN‑SGMM‑HMM声学模型,并将该模型移植到树莓派上,完成语音识别任务,相较于传统的语音识别模型相比,该模型在识别率方面有显著提高且参数规模比传统的语音识别系统要小,并且移植到开源硬件上成本低且该语音识别系统无需联网即可使用。

主权项:1.基于BN-SGMM-HMM低资源语音识别方法,其特征在于,其步骤为:1)训练数据预处理及提取:对原始数据库进行设置和分集,然后进行特征提取,得到MFCC特征;1.1)准备原始的语料库,并在训练脚本中设置好语料库的路径;1.2)执行数据准备脚本,将数据分为训练集,测试集,以及开发集,并生成说话人编号与语音之间的映射关系,说话人性别,以及原始语音文件的相关信息;1.3)将相关信息生成好之后,开始准备字典以及对应的音素模型,至此数据准备已完成;1.4)对语音信号进行特征提取,提取的范围为是训练集,开发集以及测试集,执行的脚本为stepsmake_mfcc.sh和compute_cmvn_stats.sh;1.5)在make_mfcc,sh中,需要经过预加重,分帧,加窗,快速傅里叶变换,梅尔变换,log能量,以及为了提取动态特征的一阶二阶差分计算,将原始的语音转换为特征向量;1.6)得到特征后,执行compute_cmvn_stats.sh文件,将得到的声学特征经过倒谱均值方差归一化,至此特征提取部分已完成;2)创建单音素声学模型:2.1)将之前训练的MFCC特征用于初始化单音素的GMM模型;2.2)采用E-M算法对模型训练进行迭代,并进行数据对齐;2.3)将上次训练得到对齐模型再进行迭代,直到模型收敛;3)创建三音素声学模型:得到FMLLR特征;4)训练神经网络:将FMLLR特征作为瓶颈神经网络的输入特征,经过神经网络训练后移除瓶颈层之后的网络层,瓶颈层作为输出层最终提取出经过交叉熵训练的瓶颈特征;5)BN-SGMM-HMM的训练:将神经网络提取出来的瓶颈特征作为SGMM-HMM声学模型的输入特征,最终构成BN-SGMM-HMM;6)硬件实现:将Kaldi编译的过程放在虚拟机上进行编译,并将最终编译完成的文件存入树莓派中;更新当前终端所包含的控制变量;最后确认树莓派交叉编译环境配置是否完成;7)将训练好的声学模型文件、语音模型词网络文件以及词典文件移植到树莓派当中输入语音并通过Kaldi自带的解码器进行解码,最后将语音的文本输出到终端上。

全文数据:

权利要求:

百度查询: 辽宁大学 基于BN-SGMM-HMM低资源语音识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。