【发明授权】一种基于多模态感知的双声道音频生成方法_青岛城市轨道交通科技有限公司_202310329306.0

申请/专利权人：青岛城市轨道交通科技有限公司

申请日：2023-03-30

公开（公告）日：2024-01-23

公开（公告）号：CN116456262B

主分类号：H04S1/00

分类号：H04S1/00;H04N21/233;H04N21/234;H04N21/439;H04N21/44;G06N3/0455;G06N3/0464;G06N3/0895;G06F18/25;G06V10/82;G06V10/764;G06V20/40

优先权：

专利状态码：有效-授权

法律状态：2024.01.23#授权;2023.08.04#实质审查的生效;2023.07.18#公开

摘要：一种基于多模态感知的双声道音频生成方法，包括视觉特征提取与分析，音频特征提取分析，双声道音频生成，视觉和音频特征融合等步骤，该方法通过供电系统监测过程中的音视频多个模态的融合特征分析，将视觉信息以多尺度的形式融合至音频特征中，解决双声道音频生成中视觉特征难以有效利用的问题，从而提高所生成双声道音频的质量。

主权项：1.一种基于多模态感知的双声道音频生成方法，其特征在于，包括依次进行的如下步骤：1在供电系统监测过程中，获取真实视频，并基于卷积神经网络完成对其视觉特征的提取与分析；2获取视频中的音频信号，利用短时傅里叶变换对音频信号进行时频分析，得到音频信号在频域以及时域上的特征；3以时频中包含的左右声道音频作为模型的预测目标，通过深层卷积神经网络实现对音频的预测，以采用自监督的双声道音频分离方法生成双声道音频；4通过融合分析网络将音频和视频进行融合：利用编码器以混合单声道音频的频谱作为输入，使用二维卷积网络完成下采样，实现对音频频谱中的高层次进行提取；利用解码器对高层次特征进行上采样，引入加强的视觉特征融合，对引入的视觉特征进行压缩，通过拼接的方式与音频特征合并；其中，所述步骤1具体包括：1.1获取真实视频，将真实视频分割成多个长度为t秒的连续视频片段，其中t1.0；1.2对于每个视频片段，抽取中间位置的画面帧作为关键帧，并作为该视频片段的视觉输入；1.3使用预训练的权重初始化卷积神经网络，然后使用学习率对模型进行微调；1.3在卷积神经网络模型中保留原始网络中特征提取部分，去除网络中末端的分类器部分，只获取视觉由卷积神经网络模型的模型隐藏层提取的视觉特征。

全文数据：

权利要求：

百度查询：青岛城市轨道交通科技有限公司一种基于多模态感知的双声道音频生成方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种养殖场粪污处理系统_江苏秀夫环保设备有限公司_202410328168.9

下一篇：运行器设备、转速传感器和用于运行转速传感器的方法_罗伯特·博世有限公司_202311529045.3

相关技术

一种养殖场粪污处理系统_江苏秀夫环保设备有限公司_202410328168.9

运行器设备、转速传感器和用于运行转速传感器的方法_罗伯特·博世有限公司_202311529045.3

一种土壤检测施肥处理装置_安徽大学_202410384382.6

图形处理器_Arm有限公司_202311527200.8

车载空调的风向调节方法及车辆_海信集团控股股份有限公司_202211441792.7

四元环酰胺类化合物及其应用_青岛清原化合物有限公司_202311748880.6

一种多窗口场景下的窗口获焦方法、设备及系统_华为技术有限公司_202211441416.8

生产量子点器件的紧密间隔开的栅极结构的方法_IMEC非营利协会_202311517673.X

高品位燃料携同光热联合循环热泵装置_李华玉_202311034734.7

电容器结构和包括该电容器结构的半导体器件_三星电子株式会社_202311417245.X

一种Trx-1蛋白基因及提高乳酸链球菌素产量的方法_山东福瑞达生物科技有限公司_202410307798.8

一种井喷抢险用耐高温复合板_中国石油集团渤海钻探工程有限公司_202211400449.8

龙图腾网&IPTOP

【发明授权】一种基于多模态感知的双声道音频生成方法_青岛城市轨道交通科技有限公司_202310329306.0

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务