买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于掩膜映射和混合空洞卷积网络的语音增强方法_东南大学_202111192259.7 

申请/专利权人:东南大学

申请日:2021-10-13

公开(公告)日:2024-04-09

公开(公告)号:CN113936681B

主分类号:G10L21/0208

分类号:G10L21/0208;G10L21/0264;G10L25/30;G06F17/16;G06F18/214;G06N3/0464;G06N3/084

优先权:

专利状态码:有效-授权

法律状态:2024.04.09#授权;2022.02.01#实质审查的生效;2022.01.14#公开

摘要:本发明公开了一种基于掩膜映射和混合空洞卷积网络的语音增强方法。本方法在训练阶段,预处理后的含噪语音信号进行短时傅里叶变换,得到对数功率谱,同时计算理想比值掩膜。将若干帧的对数功率谱组成二维对数功率图谱,作为混合空洞卷积网络的输入特征,将对应帧的理想比值掩膜组成二维理想比值掩膜矩阵,作为训练目标,对混合空洞卷积网络进行训练,得到混合空洞卷积网络回归器;测试过程中,利用训练好的混合空洞卷积网络回归器,将含噪测试语音的二维对数功率图谱映射为二维估计比值掩膜矩阵,结合含噪语音的对数功率谱和相位信息,进行逆变换得到重构的语音信号,实现语音增强。本发明提高了语音的感知质量,且算法兼具鲁棒性与泛化性。

主权项:1.一种基于掩膜映射和混合空洞卷积网络的语音增强方法,其特征在于,包括以下步骤:步骤1、在纯净语音信号中加入不同类型、不同信噪比的噪声,得到含噪的训练语音信号;步骤2、对步骤1得到的含噪训练语音信号进行预处理,包括归一化、分帧、加窗,得到分帧后的含噪语音信号;步骤3、对步骤2的各帧语音信号进行短时傅里叶变换,提取各帧含噪语音信号的对数功率谱,将若干帧对数功率谱组成二维对数功率图谱,同时根据纯净语音的对数功率谱和噪声的对数功率谱,计算理想比值掩膜,将若干帧的理想比值掩膜组成二维理想比值掩膜矩阵;步骤4、将步骤3得到的二维对数功率图谱,作为混合空洞卷积网络的输入特征,将对应帧的二维理想比值掩膜矩阵,作为训练目标,基于二维理想比值掩膜矩阵和网络输出的实际二维估计比值掩膜矩阵之间的损失函数对网络权重的偏导,训练混合空洞卷积网络;步骤5、对不同声学环境下的含噪测试语音信号进行预处理,并计算各帧语音信号的短时傅里叶变换,提取各帧语音信号的对数功率谱和相位谱,并将若干帧对数功率谱组成二维对数功率图谱;步骤6、将步骤5的二维对数功率图谱,作为步骤4训练好的混合空洞卷积网络的输入特征参数,计算二维估计比值掩膜矩阵;步骤7、将步骤6得到的二维估计比值掩膜矩阵和步骤5的各帧语音信号对数功率谱进行相乘,得到修正后的对数功率谱,并结合步骤5的各帧相位谱,进行短时逆傅里叶变换,得到增强后的时域语音信号。

全文数据:

权利要求:

百度查询: 东南大学 一种基于掩膜映射和混合空洞卷积网络的语音增强方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。