买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于注意力驱动循环卷积网络的环境自适应语音增强算法_天津大学_201910166373.9 

申请/专利权人:天津大学

申请日:2019-03-06

公开(公告)日:2021-05-07

公开(公告)号:CN110223706B

主分类号:G10L21/0208(20130101)

分类号:G10L21/0208(20130101);G10L21/0216(20130101);G10L25/30(20130101);G10L25/03(20130101)

优先权:

专利状态码:有效-授权

法律状态:2021.05.07#授权;2019.10.08#实质审查的生效;2019.09.10#公开

摘要:本发明公开了一种基于注意力驱动循环卷积网络的环境自适应语音增强算法,包括以下步骤:步骤一,选择语音增强任务数据库,进行输入数据准备;步骤二,提取语音的振幅信息和环境信息,其中语音的环境信息是通过采用权重预测误差方法WPE提取,语音的振幅信息主要通过傅里叶变换提取的语谱图信息;步骤三,深度模型的构建和训练;步骤四,语音重构,将步骤三中预测得到的语音振幅转换成语音波形。本发明考虑语音的环境信息,提高了算法在不同环境下的环境自适应性和算法鲁棒性;在真实语音信号保留方面,本发明融入注意力机制构建注意力驱动的循环卷积网络,更加精确地刻画语音的时序上下文信息,有效提高了语音增强的性能。

主权项:1.一种基于注意力驱动循环卷积网络的环境自适应语音增强算法,其特征在于,包括以下步骤:步骤一,语音增强任务数据库的选取及数据准备:步骤二,振幅特征及环境特征提取:符号描述:令原始语音信号为s,对语音信号分帧、加窗、短时傅里叶变换,得到的语谱图特征为X;1振幅信息提取:直接取语谱图的绝对值,并取log作为语音振幅特征,具体如下:x振幅=log|X|2环境信息提取:基于权重预测误差方法WPE来提取语音的环境信息特征;步骤三,深度模型的构建及训练:构建环境自适应的端对端深度网络EDANet;步骤四,语音波形重构:将步骤三预测得到的语音log振幅特征转换成语音波形,转换公式如下: 至此,就可以将验证集和测试集的语音进行增强,得到干净的语音波形。

全文数据:基于注意力驱动循环卷积网络的环境自适应语音增强算法技术领域本发明属于语音增强技术领域,尤其是涉及基于注意力驱动循环卷积网络的环境自适应语音增强算法。背景技术随着智能设备的普及和语音识别技术的快速发展,语音处理技术越来越引起公众关注。在普通的近场说话人离麦克风比较近环境下,语音识别的性能已经达到95%以上,许多语音识别和语音合成技术已经商业产品化。然而,在远场说话人离麦克风距离较远环境下,往往存在混响及各种背景噪声的影响,语音识别的性能急剧下降。而在远场环境下,由于说话人无须手持麦克风或者佩戴麦克风设备例如手机设备等,这种环境更加便利、高效和安全。在当今的物联网人机接口、智能语音交互、智能会议系统等领域有广泛需求。因而,语音增强技术对原始语音降噪并提高语音识别的精度是很有必要的。对于语音增强问题,比较传统的方法是提取语音的振幅特征,通过深度神经网络DNN的方法映射到干净语音。这类方法存在的问题是:仅仅使用语音的振幅信息去增强语音是不够的,这样只能适应当前的噪声环境,往往不能适应其他不同的噪声环境,算法的鲁棒性不够高;另外,利用DNN的方法只是更好的建模时序的语音信号,忽视了语音信号中时间-频率之间的关系,以及难以建模时序语音信号中的动态时序关系,最终会使得增强的语音丢失部分真实语音信号。发明内容本发明针对现有语音增强模型难以自适应不同噪声环境的问题,提出一种基于注意力驱动循环卷积网络的环境自适应语音增强算法,从而提高了算法在不同环境下的环境自适应性和算法鲁棒性。同时,为了更加精确挖掘语音时序上下文的真实信号关系,本发明融入了注意力机制构建注意力驱动的循环卷积网络,更加精确地刻画语音的时序上下文信息,有效提高了语音增强的性能。为了解决上述技术问题,本发明的技术方案如下:一种基于注意力驱动循环卷积网络的环境自适应语音增强算法,步骤如下:步骤一,语音增强任务数据库的选取及数据准备:本发明选取的语音增强任务数据库是REVERBChallenge2014中的REVERB公开数据集。根据REVERBChallenge2014的要求进行数据准备,划分训练集、验证集、测试集。步骤二,振幅特征及环境特征提取:符号描述:令原始语音信号为s,对语音信号分帧、加窗、短时傅里叶变换,得到的语谱图特征为X。1振幅信息提取:直接取语谱图的绝对值,并取log作为语音振幅特征,具体如下:x振幅=log|X|2环境信息提取:基于权重预测误差方法WPE来提取语音的环境信息特征。权重预测误差方法假设原始语音x通过滤波器G能得到想要得到的语音信号是S,其中S满足均值为0,方差为λ的高斯分布,表示为因此,此时我们就可以通过最大化log似然函数的方式来求解参数G、λ和语音信号S,求解过程如下:最后求解得到参数G、λ和语音信号S。而本发明中,我们将得到的语音信号S作为环境信息特征,因为S是动态估计不同环境条件下的混响信息从而得到的语音信号,能有效反应不同环境情况下的混响和真实语音信号特点。综上,环境信息特征提取如下:x环境=S步骤三,深度模型的构建及训练:为了提高算法的鲁棒性,本发明构建环境自适应的端对端深度网络EDANet。。EDANet网络主要分为三个部分:卷积网络,注意力驱动双向循环网络,以及全连接网络。EDANet网络具体的构建细节如下:4卷积网络卷积网络部分,本发明采用了Encoder-DecoderCNN网络。原因是encoder结构能有效地获取语音语谱图信息的时间-频率的上下文信息,decoder结构能完整地还原语谱图的时间-频率的结构细节,从而有效地保留原始真实语音信息并去除无关的语音噪声。卷积网络部分的具体设置如图1所示,本发明采用了9层卷积层,每层滤波器的数目分别是4,8,16,32,64,32,16,8,4。同时,每个滤波器的大小是3*3。最后经过卷积玩了过部分,总共产生4个2D的特征图,每个特征图的大小是514*7。5注意力驱动双向循环网络如图1所示,将卷积网络产生的所有2D特征图按时间方向拼接在一起,产生特征Hx,并接着通过注意力驱动的双向循环网络部分。注意力驱动的双向循环网络细节如图1所示,给定每个时间步的特征Ht:=Htx,计算各帧特征对于目标帧语音的贡献αt如下:然后,将带权的各帧特征输入到双向循环网络BLSTM,得到融合上下文的时序特征Vx,具体公式如下:其中,本发明中的实验设置的BLSTM层数是2,每层的隐藏单元个数是300。6全连接网络为了避免过拟合的问题,本发明采用全连接网络结合Dropout策略来提高模型的泛化能力并减缓此问题。Dropout是对神经网络进行优化的方法,在学习的过程随机将隐含层的部分权重或者输出归零,降低节点的相互依赖性,从而实现神经网络的正则化,避免模型过拟合。实验中,Dropout省略了20%的网络节点连接。具体地,针对每个时间步t,网络的计算公式如下:其中,W和bW都是模型的参数。模型训练过程:如图1所示,模型的输入是步骤二中提取的语音振幅和语音环境特征x=[x振幅,x环境],经过构建的环境自适应的端对端深度网络EDANet,预测语音的log振幅特征。其中,预测的语音log振幅特征和原始干净语音的log振幅特征y的最小平方误差作为目标函数,模型的优化方法采用AdaDelta方法。步骤四,语音波形重构:将步骤三预测得到的语音log振幅特征转换成语音波形,转换公式如下:至此,就可以将验证集和测试集的语音进行增强,得到干净的语音波形。与现有技术相比,本发明的有益效果为:如图2所示,本发明考虑了不同噪声环境的影响,动态估计不同的环境信息,大大的提高了模型的鲁棒性,获得更好语音增强效果。同时,通过融入注意力机制,更精确地挖掘语音时序上下文之间的关系,丰富了语音增强过程中的信息获取,有效提高了语音增强性能。附图说明图1是本发明提出的基于注意力驱动循环卷积网络的环境自适应语音增强算法框架图;图2是本发明方法和现有语音增强技术DNN的对比图:aDNN基线方法增强语音过程图b本发明增强语音过程图图3是本发明的方法流程图。具体实施方式为了更好地理解本发明的技术方案,现结合附图及具体实施方式来对本发明进行更进一步详细的描述图1是本发明的基于注意力驱动循环卷积网络的环境自适应语音增强算法框架图,主要包含以下步骤:步骤一,输入数据准备:为了验证本发明的效果,在REVERBChallenge2014数据库进行语音增强实验。REVERBChallenge2014中所有句子采样频率为16KHz。步骤二,振幅特征和环境特征提取:1振幅特征提取:把每一段语音信号经过预加重、分帧、加窗、快速傅里叶变换,FFT点数设为512,窗长512,窗移256,特征维数设为257维。2环境特征提取:本发明采用WPE算法进行环境信息提取,其中参数FFT点数设为512,窗长512,窗移256,特征维数也是257维。步骤三,模型构建及训练:EDANet网络的设置如下:卷积层设置9层,每层的滤波器数量分别是4,8,16,32,64,32,16,8和4。其中每个滤波器的大小都是3*3。注意力驱动的双向循环网络,实验中设置了2层,每层都是300个隐藏单元。将卷积网络产生的所有2D特征图按时间方向拼接在一起,产生特征大小是2056*7。全连接网络部分是一层Dropout层和一层全连接层。最后的目标函数是使用的最小平方误差,然后回传误差,使用AdaDelta算法进行优化。模型优化收敛后,输入验证集或者测试集的语音,预测干净语音的log振幅。步骤四,语音波形重构:将步骤三预测得到的语音log振幅特征转换成语音波形。表1是在REVERBChallenge2014数据库上语音增强的结果对比表1是在REVERBChallenge2014数据库上进行语音增强的结果对比,评价指标为验证集上的PESQ越高越好和SRMR越高越好。首先,从CNN-BLSTM和基线方法对比发现,本方法构建的网络中,Encoder-DecoderCNN对语音真实信号的时间-频率特征刻画是有效的。其次,对比EDANet无环境信息方法,证明了本发明融入的注意力机制在语音增强任务中表现良好,有助于语音信号的时序上下文信息的更精细挖掘。最后,相比于没有融入环境信息的EDANet方法,环境信息的融入提高了语音增强的性能,这表明融入环境特征对语音增强是有效的,证明了环境信息能提高模型的鲁棒性,能使得模型在不同环境中有自适应性。

权利要求:1.一种基于注意力驱动循环卷积网络的环境自适应语音增强算法,其特征在于,包括以下步骤:步骤一,语音增强任务数据库的选取及数据准备:步骤二,振幅特征及环境特征提取:符号描述:令原始语音信号为s,对语音信号分帧、加窗、短时傅里叶变换,得到的语谱图特征为X;1振幅信息提取:直接取语谱图的绝对值,并取log作为语音振幅特征,具体如下:x振幅=log|X|2环境信息提取:基于权重预测误差方法WPE来提取语音的环境信息特征;步骤三,深度模型的构建及训练:本发明构建环境自适应的端对端深度网络EDANet;步骤四,语音波形重构:将步骤三预测得到的语音log振幅特征转换成语音波形,转换公式如下:至此,就可以将验证集和测试集的语音进行增强,得到干净的语音波形。2.根据权利要求1所述的一种基于注意力驱动循环卷积网络的环境自适应语音增强算法,其特征在于,所述步骤二中权重预测误差方法假设原始语音x通过滤波器G能得到想要得到的语音信号是S,其中S满足均值为0,方差为λ的高斯分布,表示为通过最大化log似然函数的方式来求解参数G、λ和语音信号S,求解过程如下:最后求解得到参数G、λ和语音信号S;环境信息特征提取如下:x环境=S。3.根据权利要求1所述的一种基于注意力驱动循环卷积网络的环境自适应语音增强算法,其特征在于,所述步骤三中EDANet网络主要分为三个部分:卷积网络,注意力驱动双向循环网络,以及全连接网络,EDANet网络具体的构建细节如下:1卷积网络卷积网络部分,本发明采用了Encoder-DecoderCNN网络,本发明采用了9层卷积层,每层滤波器的数目分别是4,8,16,32,64,32,16,8,4;同时,每个滤波器的大小是3*3;最后经过卷积玩了过部分,总共产生4个2D的特征图,每个特征图的大小是514*7;2注意力驱动双向循环网络将卷积网络产生的所有2D特征图按时间方向拼接在一起,产生特征Hx,并接着通过注意力驱动的双向循环网络部分;注意力驱动的双向循环网络细节为给定每个时间步的特征Ht:=Htx,计算各帧特征对于目标帧语音的贡献αt如下:然后,将带权的各帧特征输入到双向循环网络BLSTM,得到融合上下文的时序特征Vx,具体公式如下:其中,本发明中的实验设置的BLSTM层数是2,每层的隐藏单元个数是300;3全连接网络采用全连接网络结合Dropout策略,Dropout是对神经网络进行优化的方法,在学习的过程随机将隐含层的部分权重或者输出归零,降低节点的相互依赖性,从而实现神经网络的正则化,避免模型过拟合。

百度查询: 天津大学 基于注意力驱动循环卷积网络的环境自适应语音增强算法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。