买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于多模态感知的双声道音频生成方法_青岛城市轨道交通科技有限公司_202310329306.0 

申请/专利权人:青岛城市轨道交通科技有限公司

申请日:2023-03-30

公开(公告)日:2024-01-23

公开(公告)号:CN116456262B

主分类号:H04S1/00

分类号:H04S1/00;H04N21/233;H04N21/234;H04N21/439;H04N21/44;G06N3/0455;G06N3/0464;G06N3/0895;G06F18/25;G06V10/82;G06V10/764;G06V20/40

优先权:

专利状态码:有效-授权

法律状态:2024.01.23#授权;2023.08.04#实质审查的生效;2023.07.18#公开

摘要:一种基于多模态感知的双声道音频生成方法,包括视觉特征提取与分析,音频特征提取分析,双声道音频生成,视觉和音频特征融合等步骤,该方法通过供电系统监测过程中的音视频多个模态的融合特征分析,将视觉信息以多尺度的形式融合至音频特征中,解决双声道音频生成中视觉特征难以有效利用的问题,从而提高所生成双声道音频的质量。

主权项:1.一种基于多模态感知的双声道音频生成方法,其特征在于,包括依次进行的如下步骤:1在供电系统监测过程中,获取真实视频,并基于卷积神经网络完成对其视觉特征的提取与分析;2获取视频中的音频信号,利用短时傅里叶变换对音频信号进行时频分析,得到音频信号在频域以及时域上的特征;3以时频中包含的左右声道音频作为模型的预测目标,通过深层卷积神经网络实现对音频的预测,以采用自监督的双声道音频分离方法生成双声道音频;4通过融合分析网络将音频和视频进行融合:利用编码器以混合单声道音频的频谱作为输入,使用二维卷积网络完成下采样,实现对音频频谱中的高层次进行提取;利用解码器对高层次特征进行上采样,引入加强的视觉特征融合,对引入的视觉特征进行压缩,通过拼接的方式与音频特征合并;其中,所述步骤1具体包括:1.1获取真实视频,将真实视频分割成多个长度为t秒的连续视频片段,其中t1.0;1.2对于每个视频片段,抽取中间位置的画面帧作为关键帧,并作为该视频片段的视觉输入;1.3使用预训练的权重初始化卷积神经网络,然后使用学习率对模型进行微调;1.3在卷积神经网络模型中保留原始网络中特征提取部分,去除网络中末端的分类器部分,只获取视觉由卷积神经网络模型的模型隐藏层提取的视觉特征。

全文数据:

权利要求:

百度查询: 青岛城市轨道交通科技有限公司 一种基于多模态感知的双声道音频生成方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。