买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:中国海洋大学
摘要:本发明提供了一种基于交叉注意力的视听语音增强方法及其模型搭建方法,属于语音识别模型技术领域。首先,获取若干说话人的视频和相应音频的原始数据,对获取的数据集进行预处理,获取语音的梅尔特征、面部帧构建数据集;基于1D卷积构建音频预处理模块;基于ResNet‑18+CBAM和Transformer编码器网络构建面部特征处理;基于交叉注意力和Transformer解码器融合视听特征,搭建一个新的视听语音增强模型,模型搭建完成后用于混合音频增强。本发明提出的视听语音增强模型,与使用单一音频流的方法或是其他融合视听特征融合方法相比,取得了明显性能提升。
主权项:1.一种基于交叉注意力的视听语音增强模型搭建方法,其特征在于,包括以下过程:步骤1,获取若干说话人的视频和相应音频的原始数据;步骤2,对步骤1中获取的原始数据进行预处理;将视频分别处理为一帧一帧的图像,同时从原始数据中随机选取一个说话人的数据和一个噪声数据,将其中的音频按一定比例混合后对混合语音做梅尔变换得到语音的梅尔特征图,结合说话人数据对应的面部帧构建数据集,并划分为训练集、验证集和测试集;步骤3,构建基于交叉注意力的视听语音增强模型;基于Resnet18网络结构和CBAM注意力机制,构建视觉特征处理模块;基于1D卷积和高斯误差线性单元Gelu,构建音频特征处理模块;基于Transformer编码器,得到视觉特征的K,V矩阵;基于Transformer解码器,将原Transformer解码器中的第二个自注意力机制层改为交叉注意力机制层,将音频特征作为Q矩阵,解码器的输出作为K,V矩阵;其中,将混合语音的梅尔特征图和视频面部帧作为输入,模型输出为预测音频梅尔特征图,最终将梅尔特征图进行逆梅尔谱变换得到最终预测音频;所述视觉特征处理模块由修改后的Resnet18残差网络和卷积块注意力模块CBAM组成;所述修改后的Resnet18残差网络,包括1个conv5卷积层,4个conv_res层;其中conv5层由大小为5×5步长为1的卷积核、批归一化层BN以及ReLU激活函数组成,每个conv_res层由两个相同的卷积块组成,每个卷积块包含一个大小为1×7步长为1的卷积核、BN层以及ReLU激活函数;卷积块的输入输出公式可由下式表示:y=ReLUx+BNconv_resReLUBNconv_resx其中,x代表卷积块的输入,y代表卷积块的输出;conv_res是1×7卷积运算;修改后的Resnet18残差网络的输出作为CBAM模块的输入;所述CBAM模块由通道注意力模块和空间注意力模块组成,CBAM模块位于修改后的Resnet18残差网络之后,用于高效提取和音频相关性较大的人脸关键区域,忽略人脸之外的次要区域;所述CBAM模块的输出作为网络提取的初步视觉特征,其将用作模型中Transformer编码器输入;所述音频特征处理模块由2个1D卷积层和高斯误差线性单元Gelu组成;每个1D卷积层的输出维度与输入维度相同,高斯误差线性单元Gelu公式如下: 代表激活函数的输入,即为激活函数的输出;所述音频特征处理模块输出作为网络提取的初步音频特征,其将用作模型中Transformer解码器输入;所述Transformer编码器,包括6个Transformer编码器模块,每个Transformer编码器模块包括一个自注意力机制层和一个MLP模块;所述Transformer编码器的输入为视觉特征处理模块的输出与正弦位置编码的相加,正弦位置编码公式如下: 表示位置编码矩阵中第个位置,第个维度的值,表示模型嵌入向量的维度;所述Transformer编码器模块中,自注意力机制中的Q,K,V矩阵由编码器输入视频特征进行线性变换得到,自注意力机制输入公式如下: 其中,中为编码器输入视频特征经过线性变换后的列维度,为编码器输入视频特征进行线性变换得到的Q,K,V矩阵;所述MLP模块包括两个全连接层、高斯误差线性单元Gelu和层归一化LayerNorm,其中全连接层的输出维度与ransformer编码器模块输入维度相等;所述Transformer编码器模块的自注意力机制层和MLP模块均用残差结构进行连接;公式如下: 其中为MLP模块输入,为MLP模块输出,为进行残差连接后的MLP模块输出,为自注意力机制层输入,为自注意力机制层输出,为进行残差连接后的自注意力机制层输出;所述6个Transformer编码器模块,每个模块之前采用残差连接;公式如下: 其中,为Transformer编码器模块输入,为Transformer编码器模块输出,为进行残差连接后Transformer编码器模块输出;所述Transformer解码器,包括6个Transformer解码器模块,每个Transformer解码器模块包括一个自注意力机制层、一个交叉注意力机制层和一个MLP模块;所述Transformer解码器的输入为音频特征处理模块的输出与可学习位置编码的相加;所述Transformer解码器模块中,自注意力机制中的Q,K,V矩阵由解码器输入视频特征进行线性变换得到,自注意力机制输入公式如下: 其中,中为解码器输入音频特征经过线性变换后的列维度,为解码器输入音频特征进行线性变换得到的Q,K,V矩阵;代表的转置矩阵;所述Transformer解码器模块中,交叉注意力机制中的Q矩阵由进行线性变换得到,K,V矩阵由Transformer编码器的输出进行线性变换得到,交叉注意力机制输入公式如下: 其中,代表交叉注意力机制层的输出,为解码器自注意力机制层的输出经过线性变换后的列维度,解码器自注意力机制层的输出进行线性变换得到的Q矩阵,为Transformer编码器的输出进行线性变换得到的K,V矩阵;所述MLP模块包括两个全连接层、高斯误差线性单元Gelu和层归一化LayerNorm,其中全连接层的输出维度与Transformer解码器模块输入维度相等;所述Transformer解码器模块的自注意力机制层、交叉注意力机制层和MLP模块均用残差结构进行连接;公式如下: 其中为解码器中MLP模块输入,为MLP模块输出,为进行残差连接后的MLP模块输出;为解码器中自注意力机制层输入,为自注意力机制层输出,为进行残差连接后的自注意力机制层输出;为解码器中交叉注意力机制层输入,为交叉注意力机制层输出,为进行残差连接后的交叉注意力机制层输出;所述6个Transformer解码器模块组成,每个模块之前采用残差连接;公式如下: 其中,为Transformer解码器模块输入,为Transformer解码器模块输出,为进行残差连接后Transformer解码器模块输出;步骤4,使用预处理后的数据集对构建的视听语音增强模型进行训练与测试评估,获取最终视听语音增强模型。
全文数据:
权利要求:
百度查询: 中国海洋大学 基于交叉注意力的视听语音增强方法及其模型搭建方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。