基于交叉注意力的视听语音增强方法及其模型搭建方法

导航：龙图腾网> 最新专利技术> 基于交叉注意力的视听语音增强方法及其模型搭建方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：中国海洋大学

摘要：本发明提供了一种基于交叉注意力的视听语音增强方法及其模型搭建方法，属于语音识别模型技术领域。首先，获取若干说话人的视频和相应音频的原始数据，对获取的数据集进行预处理，获取语音的梅尔特征、面部帧构建数据集；基于1D卷积构建音频预处理模块；基于ResNet‑18+CBAM和Transformer编码器网络构建面部特征处理；基于交叉注意力和Transformer解码器融合视听特征，搭建一个新的视听语音增强模型，模型搭建完成后用于混合音频增强。本发明提出的视听语音增强模型，与使用单一音频流的方法或是其他融合视听特征融合方法相比，取得了明显性能提升。

主权项：1.一种基于交叉注意力的视听语音增强模型搭建方法，其特征在于，包括以下过程：步骤1，获取若干说话人的视频和相应音频的原始数据；步骤2，对步骤1中获取的原始数据进行预处理；将视频分别处理为一帧一帧的图像，同时从原始数据中随机选取一个说话人的数据和一个噪声数据，将其中的音频按一定比例混合后对混合语音做梅尔变换得到语音的梅尔特征图，结合说话人数据对应的面部帧构建数据集，并划分为训练集、验证集和测试集；步骤3，构建基于交叉注意力的视听语音增强模型；基于Resnet18网络结构和CBAM注意力机制，构建视觉特征处理模块；基于1D卷积和高斯误差线性单元Gelu，构建音频特征处理模块；基于Transformer编码器，得到视觉特征的K,V矩阵；基于Transformer解码器，将原Transformer解码器中的第二个自注意力机制层改为交叉注意力机制层，将音频特征作为Q矩阵，解码器的输出作为K,V矩阵；其中，将混合语音的梅尔特征图和视频面部帧作为输入，模型输出为预测音频梅尔特征图，最终将梅尔特征图进行逆梅尔谱变换得到最终预测音频；所述视觉特征处理模块由修改后的Resnet18残差网络和卷积块注意力模块CBAM组成；所述修改后的Resnet18残差网络，包括1个conv5卷积层，4个conv_res层；其中conv5层由大小为5×5步长为1的卷积核、批归一化层BN以及ReLU激活函数组成，每个conv_res层由两个相同的卷积块组成，每个卷积块包含一个大小为1×7步长为1的卷积核、BN层以及ReLU激活函数；卷积块的输入输出公式可由下式表示：y=ReLUx+BNconv_resReLUBNconv_resx其中，x代表卷积块的输入，y代表卷积块的输出；conv_res是1×7卷积运算；修改后的Resnet18残差网络的输出作为CBAM模块的输入；所述CBAM模块由通道注意力模块和空间注意力模块组成，CBAM模块位于修改后的Resnet18残差网络之后，用于高效提取和音频相关性较大的人脸关键区域，忽略人脸之外的次要区域；所述CBAM模块的输出作为网络提取的初步视觉特征，其将用作模型中Transformer编码器输入；所述音频特征处理模块由2个1D卷积层和高斯误差线性单元Gelu组成；每个1D卷积层的输出维度与输入维度相同，高斯误差线性单元Gelu公式如下：代表激活函数的输入，即为激活函数的输出；所述音频特征处理模块输出作为网络提取的初步音频特征，其将用作模型中Transformer解码器输入；所述Transformer编码器，包括6个Transformer编码器模块，每个Transformer编码器模块包括一个自注意力机制层和一个MLP模块；所述Transformer编码器的输入为视觉特征处理模块的输出与正弦位置编码的相加，正弦位置编码公式如下：表示位置编码矩阵中第个位置，第个维度的值，表示模型嵌入向量的维度；所述Transformer编码器模块中，自注意力机制中的Q,K,V矩阵由编码器输入视频特征进行线性变换得到，自注意力机制输入公式如下：其中，中为编码器输入视频特征经过线性变换后的列维度，为编码器输入视频特征进行线性变换得到的Q,K,V矩阵；所述MLP模块包括两个全连接层、高斯误差线性单元Gelu和层归一化LayerNorm，其中全连接层的输出维度与ransformer编码器模块输入维度相等；所述Transformer编码器模块的自注意力机制层和MLP模块均用残差结构进行连接；公式如下：其中为MLP模块输入，为MLP模块输出，为进行残差连接后的MLP模块输出，为自注意力机制层输入，为自注意力机制层输出，为进行残差连接后的自注意力机制层输出；所述6个Transformer编码器模块，每个模块之前采用残差连接；公式如下：其中，为Transformer编码器模块输入，为Transformer编码器模块输出，为进行残差连接后Transformer编码器模块输出；所述Transformer解码器，包括6个Transformer解码器模块，每个Transformer解码器模块包括一个自注意力机制层、一个交叉注意力机制层和一个MLP模块；所述Transformer解码器的输入为音频特征处理模块的输出与可学习位置编码的相加；所述Transformer解码器模块中，自注意力机制中的Q,K,V矩阵由解码器输入视频特征进行线性变换得到，自注意力机制输入公式如下：其中，中为解码器输入音频特征经过线性变换后的列维度，为解码器输入音频特征进行线性变换得到的Q,K,V矩阵；代表的转置矩阵；所述Transformer解码器模块中，交叉注意力机制中的Q矩阵由进行线性变换得到，K,V矩阵由Transformer编码器的输出进行线性变换得到，交叉注意力机制输入公式如下：其中，代表交叉注意力机制层的输出，为解码器自注意力机制层的输出经过线性变换后的列维度，解码器自注意力机制层的输出进行线性变换得到的Q矩阵，为Transformer编码器的输出进行线性变换得到的K,V矩阵；所述MLP模块包括两个全连接层、高斯误差线性单元Gelu和层归一化LayerNorm，其中全连接层的输出维度与Transformer解码器模块输入维度相等；所述Transformer解码器模块的自注意力机制层、交叉注意力机制层和MLP模块均用残差结构进行连接；公式如下：其中为解码器中MLP模块输入，为MLP模块输出，为进行残差连接后的MLP模块输出；为解码器中自注意力机制层输入，为自注意力机制层输出，为进行残差连接后的自注意力机制层输出；为解码器中交叉注意力机制层输入，为交叉注意力机制层输出，为进行残差连接后的交叉注意力机制层输出；所述6个Transformer解码器模块组成，每个模块之前采用残差连接；公式如下：其中，为Transformer解码器模块输入，为Transformer解码器模块输出，为进行残差连接后Transformer解码器模块输出；步骤4，使用预处理后的数据集对构建的视听语音增强模型进行训练与测试评估，获取最终视听语音增强模型。

全文数据：

权利要求：

百度查询：中国海洋大学基于交叉注意力的视听语音增强方法及其模型搭建方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：朝向信息确定方法以及自动驾驶车辆

下一篇：托卡马克下偏滤器热管温差发电余热利用可行性验证装置

相关技术

朝向信息确定方法以及自动驾驶车辆

托卡马克下偏滤器热管温差发电余热利用可行性验证装置

一种集成电路的成品测试方法和存储介质

衣物的香薰方法、装置、设备及介质

一种活检钳钳头组件及腔道活检钳装置

一种光纤修护用就地熔接封包装置

一种用于注塑模具的顶针配装装置

基于皮肤图像与皮肤电信号的银屑病评估系统

一种治疗心血管疾病的中药组合物

一种杂食性家蚕的分子育种方法及应用方法

一种具有母液回收功能的蒸发结晶装置

一种矿渣智能运输控制系统及方法

增强相关技术

结合增强治疗法_瑞思迈私人有限公司_202111200777.9

图像增强网络的训练方法及装置、图像增强方法及装置_地平线征程(上海)科技有限公司_202410919230.1

一种双向增强复合基础_山东省路桥集团有限公司_202420478232.7

色彩增强及其模型训练方法、装置_珠海金山办公软件有限公司_202310428138.0

一种增强剂的混合设备_冠宏化工(扬州)有限公司_202323438551.X

外科增强现实导航方法、装置、设备及存储介质_首都医科大学附属北京口腔医院_202410929210.2

具有纤维增强流体填充囊的鞋类_耐克创新有限合伙公司_202380026386.0

具有增强的壳粘附性的植入物_G&G生物技术有限公司_201980013791.2

一种增强式抗挤压线缆_扬州春天线缆有限公司_202323423948.1

一种基于特征增强的目标检测方法_山东浩麟智能科技有限公司_202410798345.X

语音相关技术

语音生成模型的训练方法、语音生成方法及相关装置_完美世界(北京)软件科技发展有限公司_202410815194.4

一种可在线更换芯片内部语音内容的语音芯片_深圳唯创知音电子有限公司_202210328364.7

语音分离模型的训练方法和装置、语音分离方法_安徽大学_202410139135.X

语音可视化方法及装置_中国银行股份有限公司_202211111612.9

用于语音识别的方法及设备_三星电子株式会社_202010186974.9

语音识别与教学应用装置_湖北桐铭科技有限公司_202323555789.0

一种语音控制型雨伞_南京财经高等职业技术学校(南京市女子中等专业学校)_202420624391.3

一种智能会议语音调控系统_北京卓邦电子技术有限公司_202410838722.8

语音合成方法、装置、设备及存储介质_平安科技(深圳)有限公司_202110607789.7

生僻字语音播报方法及装置_支付宝(杭州)信息技术有限公司_202410857510.4

视听相关技术

一种视听觉智能提醒文具盒_贾立进_202311561587.9

一种视听共享器材租赁管理方法及系统_北京益品视听创意文化发展有限公司_202311585833.4

一种多媒体视听设备安装架_湖州华数广电网络有限公司_202323549205.9

一种视听觉智能提醒书包_贾立进_202311561616.1

基于视听融合显著性的区域动态调光方法_合肥工业大学_202410966028.4

一种监控视听数据融合的降水定量估算方法_南京工程学院_202311308376.4

一种粤语新闻视频中自动裁剪含主播的视听数据集的方法_东南大学_202211132338.3

一种视听眼镜用数据识别系统_深圳市天趣星空科技有限公司_202411201124.6

适用于数字视听场所的歌曲灯光适配方法、介质和设备_福建凯米网络科技有限公司_202410942877.6

一种视听觉模态传感器快速智能标定方法_西安邮电大学_202111118579.8

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于交叉注意力的视听语音增强方法及其模型搭建方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务