买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】噪声环境下人工耳蜗信号的说话人可懂性检测方法_吉林大学_201711111307.9 

申请/专利权人:吉林大学

申请日:2017-11-10

公开(公告)日:2020-10-20

公开(公告)号:CN107767859B

主分类号:G10L15/01(20130101)

分类号:G10L15/01(20130101);G10L25/27(20130101);G10L25/45(20130101);G10L25/51(20130101);G10L15/14(20060101)

优先权:

专利状态码:有效-授权

法律状态:2020.10.20#授权;2018.03.30#实质审查的生效;2018.03.06#公开

摘要:本发明涉及一种噪声环境下人工耳蜗信号的说话人可懂性检测方法,属于语音信号处理领域。纯净参考语音信号首先经过人工耳蜗处理算法并进行波形重构,得到经人工耳蜗处理后的纯净语音。再经过特征提取后,建立特定说话人的语音模型;识别阶段,纯净识别语音加噪声后,形成带噪识别语音,进行特征提取后,与说话可懂性模型进行匹配,得到最终的检测结果。优点在于:为提高人工耳蜗用户的语音感知力提供了一个重要的理论依据,减少噪声在匹配过程中的影响,提高检测的准确性,采用基于动态Gammachirp滤波器组的组合特征参数,进一步提高检测方法的噪声鲁棒性。

主权项:1.一种噪声环境下人工耳蜗信号的说话人可懂性检测方法,其特征在于,包括下列步骤:一人工耳蜗处理过程如下:1、语音信号的预处理语音信号的预处理包括端点检测、均方根归一化、将输入信号采样率调整为Fs、预加重、分帧和加窗,得到预处理后N个帧长为L的短时帧信号;2、对预处理后的语音信号进行FFT带通滤波器组滤波,包括以下步骤:1对加窗的短时帧信号进行FFT变换,计算每个短时帧频谱Sl,i;其中i=1,…,N表示第i个短时帧,l表示每个短时帧第l个频率点取值,l=0,1,2,…,L-1;2利用Nc个通道带通滤波器组对每个短时帧频谱进行滤波,保留落入相应通道频率范围的频率分量,其余频率分量滤除;3、各通道包络提取采用希尔伯特变换的方式,提取每个短时帧信号频谱中的包络,令j表示第j个通道的带通滤波器,其中j=1,…,Nc;q表示第j个带通滤波器通带内对应频率节点的个数,则经过FFT带通滤波器组后得到的每个通道的包络Fj,i; 式中,Fs为信号的采样率,ck为通道增益系数,k=1,2,…,Nc,满足 其中|G0|表示汉宁窗经傅里叶变换后得到直流分量的幅度值,|G0.5|是将汉宁窗补零至原来长度的两倍后,进行傅里叶变换得到的第二个谐波分量的幅度值,根据不同通道内包含的频率分量个数q的大小,由上式选择对应的通道增益系数,以便均衡各通道的包络能量;4、峰值选择从Nc个通道的包络中选择n个幅值最大的包络值来表示产生电刺激的电极点,并利用Id来记录n个幅值最大通道的通道号,Amc表示n个幅值最大通道对应的包络;5、幅度压缩对于被选中作为产生电刺激的电极通道而言,需要计算各通道电极的刺激脉冲时间,并对其振幅信号Amc进行幅值压缩处理,以满足电刺激的动态范围,最终得到刺激电极上交叉脉冲刺激序列的电流幅度Im,m=1,2,…,n,这里,电极是由底至顶的顺序产生刺激信号;6、语音波形重构1输入幅度压缩后的刺激电极上交叉脉冲刺激序列的电流幅度信号Im;2使用截止频率为Ls的低通滤波器估计每个通道的包络AL;3利用人工耳蜗处理算法过程中的FFT滤波器,对随机白噪声信号进行频域滤波;4用白噪声信号频域滤波后的信号对幅度压缩后各通道的包络进行调制;5将每个通道的信号转变为时域函数,然后重叠相加所有通道的信号,最终得到经过人工耳蜗处理后的语音信号;二特定说话人的语音建模方法包括下列步骤:1、输入纯净训练语音信号,经过上述步骤一人工耳蜗处理,得到纯净训练语音经人工耳蜗处理后的重构语音CleanCI;2、提取步骤1产生的语音信号CleanCI的短时谱参数,得到CleanCI语音信号的短时谱参数FCleanCI;3、特征提取算法步骤:首先将语音信号通过动态Gammachirp滤波器组,在每个频率通道中计算包络,然后以100Hz的采样率采样,利用对数log函数进行压缩,取其离散余弦变换,最终得到短时谱参数FCleanCI;4、计算短时谱参数FCleanCI一阶动态参数△FCleanCI,并形成组合特征参数FDCleanCI=[FCleanCI△FCleanCI];5、利用所有参考说话人的特征参数FDclean训练与说话人无关的隐马尔科夫语音模型,作为说话人独立的背景模型SI;6、利用背景模型SI和每个参考说话人特征参数FDclean_w,其中w=1,2,...,Nw,这里Nw是参考说话人个数,采用Baum-Welch算法对每一个参考说话人的每个关键词建立隐马尔科夫模型hiddenMarkovmodels,HMMsλwb,其中b表示关键词序号,b=1,2,..Nb在每个词的HMMs模型λwb中,每个音素使用两个状态表示,不同关键词模型λwb中状态的个数直接由关键词包含的音素个数决定,每个状态有两个转移特性,自转移和到边界状态的转移,每个状态由Mh个混合度的高斯混合模型构成,高斯混合模型的协方差矩阵采用对角阵,所有的模型状态都由一个单高斯模型初始化,然后混合度自适应变成2、3、4、5个,直到最后得到Mh个混合度的高斯混合模型GMM;三说话人可懂度检测方法1、输入纯净识别语音,加入噪声信号,按照信噪比SNR的要求,得到不同信噪比条件下的带噪识别语音;2、分别将纯净识别语音和带噪识别语音进行人工耳蜗处理算法处理,得到纯净识别语音经人工耳蜗处理后的重构语音RCleanCI和加入噪声后的人工耳蜗语音信号RNoisyCI;3、分别提取前一步骤2产生的语音信号RNoisyCI和RCleanCI的短时谱参数RFNoisyCI和RFCleanCI;4、可靠小区域块检测1分别短时谱参数RFNoisyCI和RFCleanCI计算每个时频单元的局部信噪比,分别得到SNRt,f,这里t表示时间,f表示频率; 2计算掩码IRMt,f 这里,β是一个衡量掩码的可调参数;3确定时频单元中可靠的时频单元点;设置相应的阈值T,比较每个时频单元掩码与阈值T之间的大小,如果对应时频单元点的值大于阈值T,则认为该时频单元点为可靠的,用“1”进行标注,否则标记“0”; 4确定可靠的小区域块;如果某个区域块中包含的可靠时频单元点数大于设定的M点,则认为该区域就是可靠的小区域块,否则该区域为掩蔽区域,利用这个原则,对标注的时频单元Maskt,f进行分析,得到经过CI处理后带噪语音时频单元中可靠的小区域块Gc,c=1,2,…,C,其中C表示可靠小区域的个数;5、利用短时谱参数RFNoisyCI计算其一阶动态参数△RFNoisyCI,并形成组合参数RFDNoisyCI=[FNoisyCI△FNoisyCI];6、对于每一个参考说话人的识别语音,根据上述确定的可靠小区域块以及掩蔽区域,采用基于缺失数据特征的识别方法进行识别; 其中iw∈[1,Nw],ib∈[1,Nb];根据公式6得到的识别结果,统计每一个说话人每句话关键词识别的识别率,作为每个说话人可懂度的检测结果; 7、在实际的听力测试中,对每一条识别语音,听力测试者需要记录对应的语音是哪个说话人的第几个关键词,然后按照公式7的标准进行统计计算,得到每个说话人可懂度的检测结果,与理论检测结果比对,验证计算有效性。

全文数据:噪声环境下人工耳蜗信号的说话人可懂性检测方法技术领域[0001]本发明涉及语音信号处理领域,特别是对经过人工耳蜗处理后的语音信号,在噪声环境下对不同说话人语音可懂度的检测方法。背景技术[0002]目前,人工耳蜗的研究主要集中在人工耳蜗对声音处理的方法、人工耳蜗用户对不同语音的可懂度,以及对人工耳蜗装置或系统的开发及改进等,如专利CN103892939A、CN101716108A、CN101953722A等是从人工耳蜗对声音的处理方法进行了研究;专利CN101770549A公开了一种基于“虚拟处理器”的言语处理策略自动检测方法及检测系统,对人工耳蜗处理算法实现的正确性进行检测等。目前大多数研究更关注不同处理算法的改进,以提高人工耳蜗用户对语音的可懂度,其焦点更加关注对每一个语音的识别,而不考虑说话人的因素。[0003]不同说话人语音的可懂性差别很大,有些说话人的语音更容易让人听懂。这些差别很大程度上来自他们的语音特性,比如人说话时的平均语速、平均基音频率、谱均衡等。对于正常听力的听者,在安静的环境下,不同说话人的这些差异对听者听到的内容和进行语音交流的影响几乎很小。然而,与正常听力的听者不同,使用人工耳蜗的听者,即使在安静的环境下,对连续的对话语音的内容有时都很难听懂。说话人的语速越快,人工耳蜗使用者对语音的理解度就越差。实际噪声的存在使得人工耳蜗使用者对语音的理解度急剧下降。因此,如何提高噪声环境下人工耳蜗用户对说话人语音的可懂度,是当前人工耳蜗领域研究的一个热点问题。发明内容[0004]本发明提供一种噪声环境下人工耳蜗信号的说话人可懂性检测方法,以噪声环境下人工耳蜗处理后的汉语语音信号为研究对象,建立其对不同说话人语音可懂度的模型,从而实现人工耳蜗用户的说话人语音可懂度的检测。[0005]本发明采取的技术方案是,包括下列步骤:[0006]一人工耳蜗处理过程如下:[0007]1、语音信号的预处理[0008]语音信号的预处理包括端点检测、均方根归一化、将输入信号采样率调整为Fs、预加重、分帧和加窗,得到预处理后N个帧长为L的短时帧信号;[0009]2、对预处理后的语音信号进行FFT带通滤波器组滤波,包括以下步骤:[0010]1对加窗的短时帧信号进行FFT变换,计算每个短时帧频谱SI,i;其中i=1,…,N表示第i个短时帧,1表示每个短时帧第1个频率点取值,1=0,1,2,…,L-I;[0011]2利用Nc个通道带通滤波器组对每个短时帧频谱进行滤波,保留落入相应通道频率范围的频率分量,其余频率分量滤除;[0012]3、各通道包络提取[0013]采用希尔伯特变换的方式,提取每个短时帧信号频谱中的包络,令j表示第j个通道的带通滤波器,其中j=1,…,Ne;q表示第j个带通滤波器通带内对应频率节点的个数,则经过FFT带通滤波器组后得到的每个通道的包络Fj,i;[0014][0015]式中,u=l,2,...,q,Fs为信号的采样率,Ck为通道增益系数,k=l,2,‘",Nc,满足[0016][0017]其中|g〇I表示汉宁窗经傅里叶变换后得到直流分量的幅度值,|g0.5I是将汉宁窗补零至原来长度的两倍后,进行傅里叶变换得到的第二个谐波分量的幅度值,根据不同通道内包含的频率分量个数q的大小,由上式选择对应的通道增益系数,以便均衡各通道的包络能量;[0018]⑷、峰值选择[0019]从N。个通道的包络中选择η个幅值最大的包络值来表示产生电刺激的电极点,并利用Id来记录η个幅值最大通道的通道号,Am。表示η个幅值最大通道对应的包络;[0020]5、幅度压缩[0021]对于被选中作为产生电刺激的电极通道而言,需要计算各通道电极的刺激脉冲时间,并对其振幅信号Am。进行幅值压缩处理,以满足电刺激的动态范围,最终得到刺激电极上交叉脉冲刺激序列的电流幅度Im,m=l,2,···,!!,这里,电极是由底至顶的顺序产生刺激信号;[0022]⑹、语音波形重构[0023]1输入幅度压缩后的刺激电极上交叉脉冲刺激序列的电流幅度信号Im;[0024]2使用截止频率为Ls的低通滤波器估计每个通道的包络Au[0025]3利用人工耳蜗处理算法过程中的FFT滤波器,对随机白噪声信号进行频域滤波;[0026]⑷用白噪声信号频域滤波后的信号对幅度压缩后各通道的包络进行调制;[0027]5将每个通道的信号转变为时域函数,然后重叠相加所有通道的信号,最终得到经过人工耳蜗处理后的语音信号;[0028]二特定说话人的语音建模方法[0029]包括下列步骤:[0030]1、输入纯净训练语音信号,经过上述步骤一)人工耳蜗处理,得到纯净训练语音经人工耳蜗处理后的重构语音CleanCI;[0031]2、提取步骤(1产生的语音信号CleanCI的短时谱参数,得到CleanCI语音信号的短时谱参数FaeanCI,[0032]3、特征提取算法步骤:首先将语音信号通过动态Gammachirp滤波器组,在每个频率通道中计算包络,然后以IOOHz的采样率采样,利用对数log函数进行压缩,取其离散余弦变换,最终得到短时谱参数FaeanCI;[0033]⑷、计算短时谱参数FcieanQ—阶动态参数AFcieanQ,并形成组合特征参数[0034]5、利用所有参考说话人的特征参数FDc^arJI练与说话人无关的隐马尔科夫语音模型,作为说话人独立的背景模型SI;[0035]6、利用背景模型SI和每个参考说话人特征参数FDcd__w,其中w=l,2,...,NW,这里Nw是参考说话人个数,采用Baum-Welch算法对每一个参考说话人的每个关键词建立隐马尔科夫模型hiddenMarkovmodels,HMMsλ#,其中b表示关键词序号,b=l,2,·.Nb在每个词的HMMs模型Awb中,每个音素使用两个状态表示,不同关键词模型Awb中状态的个数直接由关键词包含的音素个数决定,每个状态有两个转移特性,自转移和到边界状态的转移,每个状态由Mh个混合度的高斯混合模型构成,高斯混合模型的协方差矩阵采用对角阵,所有的模型状态都由一个单高斯模型初始化,然后混合度自适应变成2、3、4、5个,直到最后得到Mh个混合度的高斯混合模型GMM;[0036]三说话人可懂度检测方法[0037]1、输入纯净识别语音,加入噪声信号,按照信噪比SNR的要求,得到不同信噪比条件下的带噪识别语音;[0038]2、分别将纯净识别语音和带噪识别语音进行人工耳蜗处理算法处理,得到纯净识别语音经人工耳蜗处理后的重构语音RCleanCI和加入噪声后的人工耳蜗语音信号RNoisyCI;[0039]3、分别提取步骤1产生的语音信号RNoisyCI和RCleanCI的短时谱参数RFNclisyCi和RFaeanCI;[0040]⑷、可靠小区域块检测[0041]1分别短时谱参数RFNcllsyQ和RFQeanQ计算每个时频单元的局部信噪比,分别得到SNRt,f,这里t表示时间,f表示频率;[0042][0043]2计算掩码IRMt,f[0044][0045]这里,β是一个衡量掩码的可调参数;[0046]3确定时频单元中可靠的时频单元点;[0047]设置相应的阈值T,比较每个时频单元掩码与阈值T之间的大小,如果对应时频单元点的值大于阈值T,则认为该时频单元点为可靠的,用“Γ进行标注,否则标记“0”;[0048][0049]4确定可靠的小区域块;[0050]如果某个区域块中包含的可靠时频单元点数大于设定的M点,则认为该区域就是可靠的小区域块,否则该区域为掩蔽区域,利用这个原则,对标注的时频单元Maskt,f进行分析,得到经过Cl处理后带噪语音时频单元中可靠的小区域块Gc,c=l,2,···,:,其中C表示可靠小区域的个数;[0051]5、利用短时谱参数RFNoisyCI计算其一阶动态参数ARFNoisyCI,并形成组合参数[0052]6、对于每一个参考说话人的识别语音,根据上述确定的可靠小区域块以及掩蔽区域,采用基于缺失数据特征的识别方法进行识别;[0053][0054]其中[0055]根据公式⑹得到的识别结果,统计每一个说话人每句话关键词识别的识别率,作为每个说话人可懂度的检测结果;[0056][0057]7、在实际的听力测试中,对每一条识别语音,听力测试者需要记录对应的语音是哪个说话人的第几个关键词,然后按照公式⑺的标准进行统计计算,得到每个说话人可懂度的检测结果,与理论检测结果比对,验证计算有效性。[0058]本发明所述步骤三说话人可懂度检测方法中(6、采用基于缺失数据特征的识别方法进行识别的方法是:采用边缘化算法,完全忽略不可靠的组合参数,用可靠的组合参数RFDNoisyGI_r进行识别,则利用Viterbi算法估计后验概率fRFDNoisyGl|Xwb=fRFDNoisyCI_r|Awb,找到最大后验概率对应的关键词模型作为识别结果,iw和ib分别指的是识别语音被识别为说话人iw的第ib个关键词。[0059]本发明的优点在于:[0060]1、本发明提供了一种噪声环境下人工耳蜗处理信号的说话人可懂性的检测方法,其研究的重点在于不同说话人对人工耳蜗用户语音感知的影响,为提高人工耳蜗用户的语音感知力提供了一个重要的理论依据。[0061]2、本发明采用可靠小区域检测技术,在不同噪声环境中对人工耳蜗语音中噪声和语音的区域进行可靠的标记,从而减少噪声在匹配过程中的影响,提高检测的准确性。[0062]3、本发明采用基于动态Gammachirp滤波器组的组合特征参数,进一步提高检测方法的噪声鲁棒性。附图说明[0063]图1是本发明的人工耳蜗处理算法流程图;[0064]图2是本发明的预处理算法流程图;[0065]图3是本发明的语音重构流程图;[0066]图4是本发明的特定说话人语音建模算法流程图;[0067]图5是本发明的特征参数提取算法框图;[0068]图6是本发明的说话人语音可懂性的检测算法流程图。具体实施方式[0069]包括下列步骤:[0070]一人工耳蜗处理过程如下,如图1所示;[0071]1、语音信号的预处理[0072]语音信号的预处理流程如图2所示,该流程包括:输入语音信号、端点检测、均方根归一化、将输入信号采样率调整为Fs、预加重、分帧和加窗。这里,采用能量检测法进行端点检测;均方根归一化后使得输入信号的均方根值为1;匕取16000他,如果信号的采样率不等于Fs,则需要将信号重新采样至Fs;采用截止频率为1200Hz的高通滤波器滤波进行预加重;采用汉明窗分帧,其中每帧帧长8msL=128点),预处理后得到N个帧长为L的短时帧信号;[0073]2、对预处理后的语音信号进行FFT带通滤波器组滤波,包括以下步骤:[0074]1对加窗的短时帧信号进行FFT变换,计算每个短时帧频谱SI,i;其中i=1,…,N表示第i个短时帧,1表示每个短时帧第1个频率点取值,1=0,1,2,…,L-I;[0075]2利用Nc个通道带通滤波器组对每个短时帧频谱进行滤波,按照表1滤波器组频率节点的设置情况,保留落入相应通道频率范围的频率分量,其余频率分量滤除。其中,N。取22;[0076]表IFFT带通滤波器组频率节点的设置[0077][0078]3、各通道包络提取[0079]采用希尔伯特变换的方式,提取频谱中的包络。令j表示第j个通道的带通滤波器,其中」=1,···,Ν。,这里Nc取22;q表示第j个带通滤波器通带内对应频率节点的个数见表1,则经过FFT带通滤波器组后得到的每个通道的包络Fj,i;[0080][0081]式中,u=l,2,...,q,Fs为信号的采样率,Fs=16000,ck为通道增益系数,k=l,2,…,Nc,满足[0082][0083]其中IG0I表示汉宁窗经傅里叶变换后得到直流分量的幅度值,IG0.5I是将汉宁窗补零至原来长度的两倍后,进行傅里叶变换得到的第二个谐波分量的幅度值,根据不同通道内包含的频率分量个数q的大小,由式2选择对应的通道增益系数,以便均衡各通道的包络能量;[0084]⑷、峰值选择[0085]从N。个通道的包络中选择η个幅值最大的包络值来表示产生电刺激的电极点,这里取1=22,11=8,并利用11来记录11个幅值最大通道的通道号4„。表示11个幅值最大通道对应的包络;[0086]5、幅度压缩[0087]对于被选中作为产生电刺激的电极通道而言,需要计算各通道电极的刺激脉冲时间,并对其振幅信号Am。进行幅值压缩处理,以满足电刺激的动态范围,最终得到刺激电极上交叉脉冲刺激序列的电流幅度Im,m=l,2,···,!!,这里,电极是由底至顶的顺序产生刺激信号;Am。幅度压缩公式:[0090]其中基准值B=0.0156,饱和等级M=0.5859,陡度控制函数ac=415.96,电流阈值Ti=100,舒适度值Cmi=200;[0091]⑹、语音波形重构,如图3所示;[0092]1输入幅度压缩后的刺激电极上交叉脉冲刺激序列的电流幅度信号Im;[0093]2使用截止频率为Ls=400Hz的低通滤波器估计每个通道的包络Al;[0094]3利用人工耳蜗处理算法过程中的FFT滤波器,对随机白噪声信号进行频域滤波;[0095]⑷用白噪声信号频域滤波后的信号对幅度压缩后各通道的包络进行调制;[0096]5将每个通道的信号转变为时域函数,然后重叠相加所有通道的信号,最终得到经过人工耳蜗处理后的语音信号;[0097]二特定说话人的语音建模方法,其流程图如图4所示;[0098]包括下列步骤:[0099]1、输入纯净训练语音信号,经过图1所示步骤一人工耳蜗处理,得到纯净训练语音经人工耳蜗处理后的重构语音CleanCI;[0100]2、提取步骤(1产生的语音信号CleanCI的短时谱参数,得到CleanCI语音信号的短时谱参数FC1_CI,特征提取方法的框图如图5所示;[0101]3、特征提取方法步骤:首先将语音信号通过一个64通道的动态Gammachirp滤波器组,取该滤波器组的中心频率范围为60Hz〜8000Hz,在每个频率通道中,利用HiIbert变换计算包络,然后以IOOHz的采样率采样,利用对数log函数进行压缩,取其离散余弦变换,最终得到24维的短时谱参数Fcieanci;[0102]4、对由上一步计算得到的24维短时谱参数FcieanCI,计算其24维一阶动态参数八FcieanCI,并形成48维组合特征参数FDcieanCI=[FcieanClZXFcieanCI];[0103]5、利用所有参考说话人的特征参数FDc^arJI练与说话人无关的隐马尔科夫语音模型,作为说话人独立的背景模型SI;[0104]6、利用背景模型SI和每个参考说话人特征参数FDciean_w,其中W=I,2,...,Nw,这里Nw是参考说话人个数,可取20,采用Baum-Welch算法对每一个参考说话人的每个关键词建立隐马尔科夫模型hiddenMarkovmodels,HMMsλ#,其中b表示关键词序号,b=l,2,..Nb,如果对每个参考说话人进行3个关键词的识别,贝IjNb取3,在每个词的HMMs模型中,每个音素使用两个状态表示,不同关键词模型Awb中状态的个数直接由关键词包含的音素个数决定,每个状态有两个转移特性,自转移和到边界状态的转移,每个状态由Mh个混合度的高斯混合模型构成,高斯混合模型的协方差矩阵采用对角阵,所有的模型状态都由一个单高斯模型初始化,然后混合度自适应变成2、3、4、5个,直到最后得到Mh个混合度的高斯混合模型GMM,这里Mh取7;[0105]三说话人可懂度检测方法[0106]1、输入纯净识别语音,加入噪声信号,按照信噪比SNR的要求,得到不同信噪比条件下的带噪识别语音;[0107]2、分别将纯净识别语音和带噪识别语音进行人工耳蜗处理算法处理,得到纯净识别语音经人工耳蜗处理后的重构语音RCleanCI和加入噪声后的人工耳蜗语音信号RNoisyCI;[0108]3、分别提取步骤1产生的语音信号RNoisyCI和RCleanCI的短时谱参数,具体流程如图6所示,具体步骤见训练过程步骤2,采用上面的方法,分别可以计算得到RNoisyCI和RCleanCI语音信号的24维短时谱参数RFNclisyQ和RFaeanCi;[0109]⑷、可靠小区域块检测[0110]1分别短时谱参数RFNcllsyQ和RFQeanQ计算每个时频单元的局部信噪比,分别得到SNRt,f,这里t表示时间,f表示频率;[0111][0112]2计算掩码IRMt,f[0113][0114]这里,β是一个衡量掩码的可调参数,取β=0.5;[0115]3确定时频单元中可靠的时频单元点;[0116]设置相应的阈值Τ,比较每个时频单元掩码与阈值T之间的大小,如果对应时频单元点的值大于阈值Τ,则认为该时频单元点为可靠的,用“Γ进行标注,否则标记“0”;这里T取0.6;[0117][0118]4确定可靠的小区域块;[0119]如果某个区域块中包含的可靠时频单元点数大于设定的M点这里M取25,则认为该区域就是可靠的小区域块,否则该区域为掩蔽区域,利用这个原则,对标注的时频单元Maskt,f进行分析,得到经过CI处理后带噪语音时频单元中可靠的小区域块Gc,C=1,2,···,C,其中C表示可靠小区域的个数;[0120]5、利用24维短时谱参数RFNclisyQ计算其24维一阶动态参数ARFNclisyGi,并形成组合参数[0121]6、对于每一个参考说话人的识别语音,根据上述确定的可靠小区域块以及掩蔽区域,采用基于缺失数据特征的识别方法进行识别,[0122]这里采用边缘化算法,完全忽略不可靠的组合参数,用可靠的组合参数RFDNcilsyCI_r进行识别,则利用Viterbi算法估计后验概率,找到最大后验概率对应的关键词模型作为识别结果,iw和ib分别指的是识别语音被识别为说话人iw的第ib个关键词;[0123][0124]其中[0125]根据公式⑹得到的识别结果,统计每一个说话人每句话关键词识别的识别率,作为每个说话人可懂度的检测结果;[0126][0127]7、在实际的听力测试中,对每一条识别语音,听力测试者需要记录对应的语音是哪个说话人的第几个关键词,然后按照公式⑺的标准进行统计计算,得到每个说话人可懂度的检测结果,与理论检测结果比对,验证计算有效性。

权利要求:1.一种噪声环境下人工耳蜗信号的说话人可懂性检测方法,其特征在于,包括下列步骤:一人工耳蜗处理过程如下:1、语音信号的预处理语音信号的预处理包括端点检测、均方根归一化、将输入信号采样率调整为Fs、预加重、分帧和加窗,得到预处理后N个帧长为L的短时帧信号;2、对预处理后的语音信号进行FFT带通滤波器组滤波,包括以下步骤:1对加窗的短时帧信号进行FFT变换,计算每个短时帧频谱SI,i;其中i=1,…,N表示第i个短时帧,1表示每个短时帧第1个频率点取值,I=O,1,2,…,L-I;2利用Nc个通道带通滤波器组对每个短时帧频谱进行滤波,保留落入相应通道频率范围的频率分量,其余频率分量滤除;3、各通道包络提取采用希尔伯特变换的方式,提取每个短时帧信号频谱中的包络,令j表示第j个通道的带通滤波器,其中j=1,…,Nc;q表示第j个带通滤波器通带内对应频率节点的个数,则经过FFT带通滤波器组后得到的每个通道的包络Fj,i;式中,FS为信号的采样率,Ck为通道增益系数,k=l,2,-",Nc,满足其中|goI表示汉宁窗经傅里叶变换后得到直流分量的幅度值,|go.5I是将汉宁窗补零至原来长度的两倍后,进行傅里叶变换得到的第二个谐波分量的幅度值,根据不同通道内包含的频率分量个数q的大小,由上式选择对应的通道增益系数,以便均衡各通道的包络能量;⑷、峰值选择从N。个通道的包络中选择η个幅值最大的包络值来表示产生电刺激的电极点,并利用Id来记录η个幅值最大通道的通道号,Am。表示η个幅值最大通道对应的包络;5、幅度压缩对于被选中作为产生电刺激的电极通道而言,需要计算各通道电极的刺激脉冲时间,并对其振幅信号六》。进行幅值压缩处理,以满足电刺激的动态范围,最终得到刺激电极上交叉脉冲刺激序列的电流幅度Im,m=l,2,···,η,这里,电极是由底至顶的顺序产生刺激信号;6、语音波形重构1输入幅度压缩后的刺激电极上交叉脉冲刺激序列的电流幅度信号Im;⑵使用截止频率为Ls的低通滤波器估计每个通道的包络Au⑶利用人工耳蜗处理算法过程中的FFT滤波器,对随机白噪声信号进行频域滤波;⑷用白噪声信号频域滤波后的信号对幅度压缩后各通道的包络进行调制;5将每个通道的信号转变为时域函数,然后重叠相加所有通道的信号,最终得到经过人工耳蜗处理后的语音信号;二特定说话人的语音建模方法包括下列步骤:1、输入纯净训练语音信号,经过上述步骤一)人工耳蜗处理,得到纯净训练语音经人工耳蜗处理后的重构语音CleanCI;2、提取步骤(1产生的语音信号CleanCI的短时谱参数,得到CleanCI语音信号的短时谱参数Fa_ci;3、特征提取算法步骤:首先将语音信号通过动态Gammachirp滤波器组,在每个频率通道中计算包络,然后以IOOHz的采样率采样,利用对数log函数进行压缩,取其离散余弦变换,最终得到短时谱参数FaeanCI;⑷、计算短时谱参数FaeanCI—阶动态参数ZXFaeanCI,并形成组合特征参数FDaeanCI=5、利用所有参考说话人的特征参数FDcaean训练与说话人无关的隐马尔科夫语音模型,作为说话人独立的背景模型SI;⑹、利用背景模型SI和每个参考说话人特征参数Πλι__ν,其中w=l,2,...,NW,这里Nw是参考说话人个数,采用Baum-Welch算法对每一个参考说话人的每个关键词建立隐马尔科夫模型hiddenMarkov111〇1618,刚\^人_,其中13表示关键词序号,匕=1,2,..他在每个词的HMMs模型Awb中,每个音素使用两个状态表示,不同关键词模型Awb中状态的个数直接由关键词包含的音素个数决定,每个状态有两个转移特性,自转移和到边界状态的转移,每个状态由Mh个混合度的高斯混合模型构成,高斯混合模型的协方差矩阵采用对角阵,所有的模型状态都由一个单高斯模型初始化,然后混合度自适应变成2、3、4、5个,直到最后得到也个混合度的高斯混合模型GMM;三说话人可懂度检测方法1、输入纯净识别语音,加入噪声信号,按照信噪比SNR的要求,得到不同信噪比条件下的带噪识别语音;2、分别将纯净识别语音和带噪识别语音进行人工耳蜗处理算法处理,得到纯净识别语音经人工耳蜗处理后的重构语音RCleanCI和加入噪声后的人工耳蜗语音信号RNoisyCI;⑶、分别提取步骤1产生的语音信号RNoisyCI和RCleanCI的短时谱参数RFNclisyci*RFcieanCI;⑷、可靠小区域块检测1分别短时谱参数RFNtllsyci和RFa_a计算每个时频单元的局部信噪比,分别得到SNRt,f,这里t表示时间,f表示频率;2计算掩码IRMt,f这里,β是一个衡量掩码的可调参数;3确定时频单元中可靠的时频单元点;设置相应的阈值T,比较每个时频单元掩码与阈值T之间的大小,如果对应时频单元点的值大于阈值T,则认为该时频单元点为可靠的,用“Γ进行标注,否则标记“0”;4确定可靠的小区域块;如果某个区域块中包含的可靠时频单元点数大于设定的M点,则认为该区域就是可靠的小区域块,否则该区域为掩蔽区域,利用这个原则,对标注的时频单元Maskt,f进行分析,得到经过Cl处理后带噪语音时频单元中可靠的小区域块匕,:=1,2,-_,:,其中:表示可靠小区域的个数;5、利用短时谱参数RFNoisyGI计算其一阶动态参数ARFNoisyGI,并形成组合参数6、对于每一个参考说话人的识别语音,根据上述确定的可靠小区域块以及掩蔽区域,采用基于缺失数据特征的识别方法进行识别;其中根据公式6得到的识别结果,统计每一个说话人每句话关键词识别的识别率,作为每个说话人可懂度的检测结果;7、在实际的听力测试中,对每一条识别语音,听力测试者需要记录对应的语音是哪个说话人的第几个关键词,然后按照公式7的标准进行统计计算,得到每个说话人可懂度的检测结果,与理论检测结果比对,验证计算有效性。2.根据权利要求1所述的一种噪声环境下人工耳蜗信号的说话人可懂性检测方法,其特征在于:步骤三说话人可懂度检测方法中(6、采用基于缺失数据特征的识别方法进行识别的方法是:采用边缘化算法,完全忽略不可靠的组合参数,用可靠的组合参数RFDNoisyCI_r进行识别,则利用Viterbi算法估计后验概率fRFDNoisyCIIXwb=fRFDNoisyCI_rIAwb,找到最大后验概率对应的关键词模型作为识别结果,iw和ib分别指的是识别语音被识别为说话人iw的第ib个关键词。

百度查询: 吉林大学 噪声环境下人工耳蜗信号的说话人可懂性检测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。