申请/专利权人:中国海洋大学
申请日:2024-03-11
公开(公告)日:2024-04-12
公开(公告)号:CN117877504A
主分类号:G10L21/0208
分类号:G10L21/0208;G06N3/0464;G06N3/0442;G10L25/30
优先权:
专利状态码:在审-实质审查的生效
法律状态:2024.04.30#实质审查的生效;2024.04.12#公开
摘要:本发明提供了一种联合语音增强方法及其模型搭建方法,属于语音识别模型技术领域。首先,获取若干说话人的视频和相应音频的原始数据,对获取的数据集进行预处理,获取语音的语谱图、面部帧构建数据集;联合语音增强模型结构包括音频特征处理模块、视觉特征处理模块、双路SE视听特征融合模块和网络输出模块,搭建一个新的视听语音增强模型,并对模型进行训练选取最终模型;模型搭建完成后用于混合音频增强。本发明提出的基于挤压激励融合视听特征的语音增强模型,与使用单一音频流的方法或是其他融合视听特征融合方法相比,取得了明显性能提升。在公开数据集上进行对比实验,验证了该方法的有效性。
主权项:1.一种联合语音增强模型的搭建方法,其特征在于,包括以下过程:步骤1,获取若干说话人的视频和相应音频的原始数据;步骤2,对步骤1中获取的原始数据进行预处理;将视频分别处理为一帧一帧的图像,同时从原始数据中随机选取一个说话人的数据和一个噪声数据,将其中的音频混合按一定比例混合后对混合语音做短时傅里叶变换得到语音的语谱图,结合说话人数据对应的面部帧构建数据集,并划分为训练集、验证集和测试集;步骤3,基于Resnet18网络结构和CBAM注意力机制,构建视觉特征处理模块;基于3个CNN卷积块的组合,构建音频特征处理模块;基于SE模块结构,在传统的SE模块基础上增加了视频流输入,对视听特征分别进行压缩,然后合并压缩特征,最后由输入音频特征进行激励,构建为一个双路SE视听特征融合模块;基于双向LSTM网络结构和全连接层,构建为网络输出模块;将上述四个网络模块结合,构建为基于挤压激励融合视听特征的联合语音增强模型;其中,模型将混合语音的语谱图和视频面部帧作为输入,模型输出为预测音频语谱图,最终将预测语谱图进行逆短时傅里叶变换得到最终预测音频;步骤4,使用预处理后的数据集对构建的联合语音增强模型进行训练与测试评估,获取最终联合语音增强模型。
全文数据:
权利要求:
百度查询: 中国海洋大学 一种联合语音增强方法及其模型搭建方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。