买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于图像识别的短波语音端点检测方法_电子科技大学_201711330638.1 

申请/专利权人:电子科技大学

申请日:2017-12-13

公开(公告)日:2021-09-14

公开(公告)号:CN108053842B

主分类号:G10L25/84(20130101)

分类号:G10L25/84(20130101);G10L25/18(20130101);G10L25/03(20130101);G10L25/45(20130101);G10L25/27(20130101);G06T7/13(20170101)

优先权:

专利状态码:有效-授权

法律状态:2021.09.14#授权;2018.06.12#实质审查的生效;2018.05.18#公开

摘要:本发明属于语音检测领域,尤其基于图像识别的短波语音端点检测方法。本发明的技术方案为:首先对数据进行预处理,提高信噪比;然后按特定长度分帧,同时进行短时傅里叶变换,从而得到语谱图;最后使用图像识别方法寻找语谱图中的声纹,依据声纹分布确定数据中有话段。采用本发明方法在预处理后的语音具有相似信噪比,后续步骤不需要调节参数,因此,本发明方法可以从不同背景噪声中自适应地选取有话段。

主权项:1.一种基于图像识别的短波语音端点检测方法,其特征在于,其步骤具体如下:S1、进行语音预处理,进行语音预处理的目的是为保证形成的语谱图声纹清晰度大致相同,这是进行有效图像识别的前提,具体步骤为:S11、在采集语音信号数据的过程中,由于测试系统的某些原因,在时间序列中会产生一个线性的或者慢变的趋势误差,使语音信号的零线偏离基线,甚至偏离的大小会随着时间变化,这会导致语音的相关函数,功率谱函数在处理计算中变形,采用最小二乘法拟合趋势项去除趋势误差;S12、进行幅值归一化;S13、低通滤波,去除高于3500Hz的噪声;S14、使用多窗谱的谱减法对语音进行加强;S2、对获取的语谱图进行图像识别,获取结构体,此结构体包含语谱图声纹位置的起始点和结束点,具体为:S21、对语音信号进行分帧处理,以帧为单位进行短时傅里叶变换,得到短时频谱;S22、按帧的时间顺序排列S21得到的短时频谱,获取语谱图;S23、识别S22所述语谱图中的声纹,即:将彩色语谱图变成灰度图像;提取灰度图的图像边缘,识别灰度图中线段的位置;将得到的包含语谱图声纹位置的起始点和结束点构成结构体;S3、进行端点检测,具体为:S31、从S2所述结构体中提取出起始点位置向量ST=[st1,st2,...,sti,...,stn]和结束点位置向量EN=[en1,en2,...,eni,...,enn],其中,sti指第i个起始点位置,eni指第i个结束点位置;对所述起始点位置向量ST和结束点位置向量EN按照升序进行排序;S32、判断有话段,当有三条水平线段时即可认为是声纹,其余为噪声;在数值上体现为,当eni>sti+2即可认为第i点为起始点的线段是在有话段中的;S33、选出所有肯定在有话段中的线段,向左右两个方向100帧范围内寻找是否有ST的元素st'i存在,有的话也包含在有话段内,并替代原本sti再重复向左右100帧范围内寻找,直到左右100帧范围不存在ST的元素。

全文数据:基于图像识别的短波语音端点检测方法技术领域[0001]本发明属于语音检测领域,尤其一种基于图像识别的短波语音端点检测方法。背景技术[0002]尽管新型无线电通信系统不断出现,短波电台由于其自主通信能力和覆盖范围广的特点,依然受到普遍重视。但是短波通信发射电波需要经过电离层反射,因此其噪声较大。强背景噪声的存在使得监听人员无法长时间工作,必须做降噪处理,同时对无话音段进行静噪处理。此时为了防止漏听,语音端点检测方法的性能显得尤为重要。[0003]传统语音处理中,依据不同特征,已经有很多端点检测的方法,如基于相关函数的端点检测、基于倒谱距离的端点检测、基于能零比的端点检测以及基于小波分解的端点检测等。针对不同语音,调整参数,能准确地选取语音有话段。但在多变环境,要求实时通信的情况下,调整端点检测参数是不现实的,传统语音处理方法就不再适用了。[0004]语音频谱图简称语谱图,通过语音的短时傅里叶变换分析研究语音的短时频谱随时间的变化关系。语谱图水平方向是时间轴,垂直方向是频率轴,其上的灰度条纹代表各个时刻的语音短时谱。语谱图反映了语音信号的动态频谱特性,在语音分析中具有重要的实用价值,被称为可视语音。发明内容[0005]针对现有技术的缺陷,根据人类发声的特有机制,以及噪声频谱中不会存在声纹这一特征,本发明提出一种自适应的处理方法。[0006]本发明的技术方案为:首先对数据进行预处理,提高信噪比;然后按特定长度分帧,同时进行短时傅里叶变换,从而得到语谱图;最后使用图像识别方法寻找语谱图中的声纹,依据声纹分布确定数据中有话段。[0007]—种基于图像识别的短波语音端点检测方法,其步骤具体如下:[0008]S1、进行语音预处理,进行语音预处理的目的是为保证形成的语谱图声纹清晰度大致相同,这是进行有效图像识别的前提,具体步骤为:[0009]S11、在采集语音信号数据的过程中,由于测试系统的某些原因,在时间序列中会产生一个线性的或者慢变的趋势误差,使语音信号的零线偏离基线,甚至偏离的大小会随着时间变化,这会导致语音的相关函数,功率谱函数在处理计算中变形,采用最小二乘法拟合趋势项去除趋势误差;[0010]S12、进行幅值归一化;[0011]S13、低通滤波,去除高于3500Hz的噪声;[0012]S14、使用多窗谱的谱减法对语音进行加强;[0013]S2、对获取的语谱图进行图像识别,获取结构体,此结构体包含语谱图声纹位置的起始点和结束点,具体为:[00M]S21、对语音信号进行分帧处理,以帧为单位进行短时傅里叶变换,得到短时频谱;[0015]S22、按帧的时间顺序排列S21得到的短时频谱,获取语谱图;[0016]S23、识别S22所述语谱图中的声纹,S卩:将彩色语谱图变成灰度图像;提取灰度图的图像边缘,识别灰度图中线段的位置;将得到的包含语谱图声纹位置的起始点和结束点构成结构体;[0017]S3、进行端点检测,具体为:[0018]S31、从S2所述结构体中提取出起始点位置向量ST=[sti,st2,...,sti,...,stn]和结束点位置向量EN=[em,en2,···,em,···,enn],其中,sti指第i个起始点位置,em指第i个结束点位置。对所述起始点位置向量ST和结束点位置向量EN按照升序进行排序;[0019]S32、判断有话段,当有三条水平线段时即可认为是声纹,其余为噪声。在数值上体现为,当emst1+2即可认为第i点为起始点的线段是在有话段中的;[0020]S33、选出所有肯定在有话段中的线段,向左右两个方向100帧范围内寻找是否有ST的元素st’i存在,有的话也包含在有话段内,并替代原本Sti再重复向左右100帧范围内寻找,直到左右100帧范围不存在ST的元素。[0021]进一步地,S14所述使用多窗谱的谱减法对语音进行加强具体步骤如下:[0022]步骤A、设语音信号的时间序列为Xη,用长度为wlen的汉明窗对Xη进行加窗分桢处理,得到第i桢语音信号为Xim,所述Xim的的桢长为wlen,所述Xim离散傅立叶变换为[0023]步骤B、以i帧为中心的前后各取M帧,共2M+1帧计算步骤A所述Xik中每个分量的平均幅度il和相5,其中j指以i帧为中心的后j桢,Im指虚部,Re指实部;[0024]步骤C、求多个正交数据窗对同一数据序列的平均得到谱估计,多窗谱定义为其中,L为数据窗个数,Smt为数据窗w的谱,S[Txη为数据序列,N为序列长度,awη为第w个数据窗,awη是一组相互正交的离散椭球序列,用于与同一列信号分别求直接谱,awη满足多个数据窗之间相互正交,即,用上述多窗谱定义方法对分帧后的信号Xlm进行多窗谱估计,即[0025]步骤D、对多窗谱功率密度估计值进行平滑处理,计算平滑功率谱密度I,计算噪声平均功率谱密撞4十算增益因」,其中,NIS表示前导无话段占有的帧数;[0026]步骤E、根据得到的多窗谱谱减后的幅度iI合成加强语音信号,其中,多窗谱谱减法是利用前导无话段求出噪声的功率,整体声音的功率减去噪声的成分后,利用相角关系恢复语音信号,过减因子决定对信号的加强程度,增益补偿因子决定计算时长。[0027]进一步地,所述过减因子的选取方法如下:[0028]I、过减因子初始值为1,并取初始信噪比snr’=0;[0029]Π、使用多窗谱谱减法对语音进行加强处理,计算处理后信号的信噪比snr;[0030]ΙΠ、若处理后的信号的信噪比snr大于初始信噪比snr’,则进行下一步骤,若处理后的信号的信噪比snr小于或者等于初始信噪比snr’,说明信号中语音不显著,则不做处理,保留所有语音信号,直接输出;[0031]IV、若处理后的信号的信噪比snr小于8dB,则过减因子增加0.5,令snr’=snr,重复步骤Π-步骤IV直到信号信噪比大于8dB。[0032]本发明的有益效果是:[0033]采用本发明方法在预处理后的语音具有相似信噪比,后续步骤不需要调节参数,因此,本发明方法可以从不同背景噪声中自适应地选取有话段。附图说明[0034]图1为多窗谱改进谱减法原理图。[0035]图2为语音加强处理流程图。[0036]图3为本发明方法流程图。[0037]图4为具体实施例1中语音预处理之前的语音时域图。[0038]图5为具体实施例1中语音预处理之后的语音时域图。[0039]图6为具体实施例1中语音各帧频谱图。[0040]图7为具体实施例1中灰度处理后的语谱图。[0041]图8为具体实施例1中灰度处理后的语谱图中水平线段部分。[0042]图9为具体实施例1中灰度处理后的语谱图端点检测结果。[0043]图10为具体实施例1中端点检测结果时域图,其中,左为原始语音,右为预处理后语音。[0044]图11为具体实施例2中语音预处理前的语音时域图。[0045]图12为具体实施例2中语音预处理后的语音时域图。[0046]图13为具体实施例2中语音各帧频谱图。[0047]图14为具体实施例2中灰度处理后的语谱图。[0048]图15为具体实施例2中灰度处理后的语谱图中水平线段部分。[0049]图16为具体实施例2中灰度处理后的语谱图端点检测结果。[0050]图17为具体实施例2中端点检测结果时域图,其中,左为原始语音,右为预处理后语音。具体实施方式[0051]下面结合附图对本发明进行说明。[0052]本发明方法选取声纹特性作为声音的特征。由于人类发声的独特生理结构,从语音频谱图(语谱图)中可以看到声纹。人类语音的声纹具有显著特征,在有话段,可以看到不同频率上能量分布有特定规律;在语音的频谱图中,呈现横向平行的若干纹路,这些纹路就是声纹。声纹可以体现个人发音特征以及音素特征,在语音识别方面得到广泛运用。[0053]如图3所示,本发明方法步骤如下:[0054]S1、进行语音预处理,进行语音预处理的目的是为保证形成的语谱图声纹清晰度大致相同,这是进行有效图像识别的前提,具体步骤为:[0055]S11、在采集语音信号数据的过程中,由于测试系统的某些原因,在时间序列中会产生一个线性的或者慢变的趋势误差,使语音信号的零线偏离基线,甚至偏离的大小会随着时间变化,这会导致语音的相关函数,功率谱函数在处理计算中变形,采用最小二乘法拟合趋势项去除趋势误差;[0056]SI2、进行幅值归一化;[0057]S13、低通滤波,去除高于3500Hz的噪声;[0058]S14、使用多窗谱的谱减法对语音进行加强,具体为:[0059]步骤A、设语音信号的时间序列为Xη,用长度为wlen的汉明窗对Xη进行加窗分桢处理,得到第i桢语音信号为Xim,所述Xim的的桢长为wlen,所述Xim离散傅立叶变换为[0060]步骤B、以i帧为中心的前后各取M帧,共2M+1帧计算步骤A所述Xik中每个分量的平均幅度谱和相彡其中j指以i帧为中心的后j桢,Im指虚部,Re指实部。[0061]步骤C、求多个正交数据窗对同一数据序列的平均得到谱估计,多窗谱定义为:,其中,L为数据窗个数,Smt为数据窗w的谱,SITxη为数据序列,N为序列长度,awη为第w个数据窗,awη是一组相互正交的离散椭球序列,用于与同一列信号分别求直接谱,awη满足多个数据窗之间相互正交,即。用上述多窗谱定义方法对分帧后的信号Xlm进行多窗谱估计,即[0062]步骤D、对多窗谱功率密度估计值进行平滑处理,计算平滑功率谱密度,计算噪声平均功率谱密房,计算增益因亏其中,NIS表示前导无话段占有的帧数;[0063]步骤E、根据得到的多窗谱谱减后的幅度谱I合成加强语音信号,其中,多窗谱谱减法是利用前导无话段求出噪声的功率,整体声音的功率减去噪声的成分后,利用相角关系恢复语音信号,过减因子决定对信号的加强程度,增益补偿因子决定计算时长;[0064]所述过减因子的选取方法如下:[0065]I、过减因子初始值为1,并取初始信噪比snr’=0;[0066]Π、使用多窗谱谱减法对语音进行加强处理,计算处理后信号的信噪比snr;[0067]ΙΠ、若处理后的信号的信噪比snr大于初始信噪比snr’,则进行下一步骤,若处理后的信号的信噪比snr小于或者等于初始信噪比snr’,说明信号中语音不显著,则不做处理,保留所有语音信号,直接输出;[0068]IV、若处理后的信号的信噪比snr小于8dB,则过减因子增加0.5,令snr’=snr,重复步骤Π-步骤IV直到信号信噪比大于8dB;[0069]S2、对获取的语谱图进行图像识别,获取结构体,此结构体包含语谱图声纹位置的起始点和结束点,具体为:[0070]S21、对语音信号进行分帧处理,以帧为单位进行短时傅里叶变换,得到短时频谱;[0071]S22、按帧的时间顺序排列S21得到的短时频谱,获取语谱图;[0072]S23、识别S22所述语谱图中的声纹,S卩:将彩色语谱图变成灰度图像;提取灰度图的图像边缘,识别灰度图中线段的位置;将得到的包含语谱图声纹位置的起始点和结束点构成结构体;[0073]S3、进行端点检测,具体为:[0074]S31、从S2所述结构体中提取出起始点位置向量ST=[sti,st2,...,sti,...,stn]和结束点位置向量EN=[em,en2,···,em,···,enn],其中,sti指第i个起始点位置,em指第i个结束点位置。对所述起始点位置向量ST和结束点位置向量EN按照升序进行排序;[0075]S32、判断有话段,当有三条水平线段时即可认为是声纹,其余为噪声。在数值上体现为,当emst1+2即可认为第i点为起始点的线段是在有话段中的;[0076]S33、选出所有肯定在有话段中的线段,向左右两个方向100帧范围内寻找是否有ST的元素st’i存在,有的话也包含在有话段内,并替代原本Sti再重复向左右100帧范围内寻找,直到左右100帧范围不存在ST的元素。这样做的目的是防止由于取直线函数效果不佳影响端点检测性能。[0077]具体实施例1、典型噪声背景[0078]步骤一、读入文件,绘制时域图形见图4,语音预处理之后时域图见图5。[0079]将语音分帧,帧长200,帧移80,得到分帧后的数据是200*2964的二维矩阵,每列200个数每帧)为一个单位进行傅里叶变换得到各帧频谱,则有2964个频谱,以横轴为时间,纵轴为频率绘制频谱图见图6,取低频部分OHz〜3500Hz并做灰度处理得到语谱图,见图7。其中,为了清晰显示,已将图7,图8,图9顺时针旋转90度)。[0080]图7中可见白色部分,有平行波纹,即声纹,此为语音部分,另有白色不成波纹部分是强噪声造成的。选取图中水平线段部分,见图8。[0081]将起始点结束点储存,按横轴方向大小重新排序,得到起始点向量和结束点向量。我们认为当有三条水平线段时即可认为是声纹,其余为噪声。在数值上体现为emst1+2,即第i个线段结束位置大于第i+2个线段的开始位置,以此为凭据判断语音是否有话。为确保无漏检信息,往左右再寻找可能有话段。得到结果如图9。转换至时域图见图10.。利用本发明方法,在典型噪声背景下,有话段均被检出。[0082]具体实施例2、强噪声背景[0083]步骤与实例一相同,实验结果如下:[0084]需要说明的是,强噪声背景下,语音加强处理后仍然会留下较强噪声频谱,如图14所示,图中有话段为能量较高且有平行纹路所在的区域,而在有话段之后,由于有较强噪声存在,在语谱图中留下了能量较低,成点状存在的噪声谱。如图15,在识别线段时,会将噪声谱中的一部分识别为线段,所以会在端点检测时造成误判。最后的检测结果见图16至图17,可以看到,语音中所有的有话段全部识别出来,但会将一部分只含有强噪声的部分误判为语音。

权利要求:1.一种基于图像识别的短波语音端点检测方法,其特征在于,其步骤具体如下:51、进行语音预处理,进行语音预处理的目的是为保证形成的语谱图声纹清晰度大致相同,这是进行有效图像识别的前提,具体步骤为:511、在采集语音信号数据的过程中,由于测试系统的某些原因,在时间序列中会产生一个线性的或者慢变的趋势误差,使语音信号的零线偏离基线,甚至偏离的大小会随着时间变化,这会导致语音的相关函数,功率谱函数在处理计算中变形,采用最小二乘法拟合趋势项去除趋势误差;512、进行幅值归一化;513、低通滤波,去除高于3500Hz的噪声;514、使用多窗谱的谱减法对语音进行加强;52、对获取的语谱图进行图像识别,获取结构体,此结构体包含语谱图声纹位置的起始点和结束点,具体为:521、对语音信号进行分帧处理,以帧为单位进行短时傅里叶变换,得到短时频谱;522、按帧的时间顺序排列S21得到的短时频谱,获取语谱图;523、识别S22所述语谱图中的声纹,S卩:将彩色语谱图变成灰度图像;提取灰度图的图像边缘,识别灰度图中线段的位置;将得到的包含语谱图声纹位置的起始点和结束点构成结构体;53、进行端点检测,具体为:531、从S2所述结构体中提取出起始点位置向量ST=[sti,st2,...,sti,...,stn]和结束点位置向量EN=[em,en2,…,em,…,enn],其中,sti指第i个起始点位置,em指第i个结束点位置。对所述起始点位置向量ST和结束点位置向量EN按照升序进行排序;532、判断有话段,当有三条水平线段时即可认为是声纹,其余为噪声。在数值上体现为,当emsti+2即可认为第i点为起始点的线段是在有话段中的;533、选出所有肯定在有话段中的线段,向左右两个方向100帧范围内寻找是否有ST的元素st’i存在,有的话也包含在有话段内,并替代原本Sti再重复向左右100帧范围内寻找,直到左右100帧范围不存在ST的元素。2.根据权利要求1所述的一种基于图像识别的短波语音端点检测方法,其特征在于:S14所述使用多窗谱的谱减法对语音进行加强具体步骤如下:步骤A、设语音信号的时间序列为Xη,用长度为wlen的汉明窗对Xη进行加窗分帧处理,得到第i桢语音信号为Xim,所述Xim的的桢长为wlen,所述Xim离散傅立叶变换为步骤B、以i帧为中心的前后各取M帧,共2M+1帧计算步骤A所述Xi⑹中每个分量的平均幅度谱和相角,其中j指以i桢为中心的后j桢,Im指虚部,Re指实部;步骤C、求多个正交数据窗对同一数据序列的平均得到谱估计,多窗谱定义为,其中,L为数据窗个数,Smt为数据窗w的谱,即Txη为数据序列,N为序列长度,awη为第w个数据窗,awη是一组相互正交的离散椭球序列,用于与同一列信号分别求直接谱,awη满足多个数据窗之间相互正交,即,用上述多窗谱定义方法对分帧后的信号Xlm进行多窗谱估计,即步骤D、对多窗谱功率密度估计值进行平滑处理,计算平滑功率谱密度,计算噪声平均功率谱密度I计算增益因汙,其中,NIS表示前导无话段占有的帧数;步骤E、根据得到的多窗谱谱减后的幅度谱合成加强语音信号.其中,多窗谱谱减法是利用前导无话段求出噪声的功率,整体声音的功率减去噪声的成分后,利用相角关系恢复语音信号,过减因子决定对信号的加强程度,增益补偿因子决定计算时长。3.根据权利要求1所述的一种基于图像识别的短波语音端点检测方法,其特征在于:所述过减因子的选取方法如下:I、过减因子初始值为1,并取初始信噪比snr’=O;Π、使用多窗谱谱减法对语音进行加强处理,计算处理后信号的信噪比snr;ΙΠ、若处理后的信号的信噪比snr大于初始信噪比snr’,则进行下一步骤,若处理后的信号的信噪比snr小于或者等于初始信噪比snr’,说明信号中语音不显著,则不做处理,保留所有语音信号,直接输出;IV、若处理后的信号的信噪比snr小于8dB,则过减因子增加0.5,令snr’=snr,重复步骤Π-步骤IV直到信号信噪比大于8dB。

百度查询: 电子科技大学 基于图像识别的短波语音端点检测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。