买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】音视频旋律动作自生成方法及装置_航天科工深圳(集团)有限公司_202011562919.1 

申请/专利权人:航天科工深圳(集团)有限公司

申请日:2020-12-25

公开(公告)日:2024-04-09

公开(公告)号:CN112735472B

主分类号:G10L25/48

分类号:G10L25/48;G10L25/30;G06F16/40

优先权:

专利状态码:有效-授权

法律状态:2024.04.09#授权;2021.05.21#实质审查的生效;2021.04.30#公开

摘要:本发明揭示了一种音视频旋律动作自生成方法及装置,包括获取音频数据和视频数据,视频数据在内容上描述了对应于音频数据的旋律动作;对音频数据和视频数据进行数值描述,生成在音频和视频维度上关联的特征向量;将音频特征向量和视频特征向量结合,得到特征向量矩阵;特征向量矩阵通过预训练的神经网络生成个性化适配音频数据和视频数据的音视频旋律动作。本方案以时间序列为参考基准,同时巧妙的把音频数据和视频数据结合并向量化,然后通过神经网络模型计算生产自动生成音视频旋律动作,实现了音频数据和视频数据两类不同数据的结合,具有智能化,多场景应用的能力。

主权项:1.一种音视频旋律动作自生成方法,其特征在于,包括:S100:获取音频数据和视频数据,所述视频数据在内容上描述了对应于所述音频数据的旋律动作;S300:对所述音频数据和所述视频数据进行数值描述,生成在音频和视频维度上关联的特征向量;音频特征向量的实现包括:S310A:对获取的音频信号进行预处理;S320A:对预处理后的音频信号进行傅里叶变换得到语音频谱信号;S330A:所述语音频谱信号通过梅尔滤波器得到语音梅尔刻度;S340A:通过所述语音梅尔刻度计算得到梅尔倒谱系数,并得到音频特征向量;视频特征向量的实现包括:S310B:获取视频信号,所述视频信号与所述音频信号在时间序列上相关联;S320B:提取所述视频信号中的帧图像,并对图像中的目标设定关键点;S330B:获取所述关键点的位置数据,并根据所述位置数据计算得到视频特征向量;S500:将所述音频特征向量和所述视频特征向量结合,得到特征向量矩阵;S700:所述特征向量矩阵通过预训练的神经网络生成个性化适配所述音频数据和所述视频数据的音视频旋律动作;所述步骤S500包括:S510:将所述音频特征向量和所述视频特征向量累加得到融合特征向量;S520:所述融合特征向量按照时间序列形成特征向量矩阵;所述步骤S700包括:S710:所述特征向量矩阵通过编码器进行编码,再通过解码器进行解码,生成时间序列的个性化特征向量矩阵;S720:所述个性化特征向量矩阵适配所述音频数据和所述视频数据的音视频旋律动作。

全文数据:

权利要求:

百度查询: 航天科工深圳(集团)有限公司 音视频旋律动作自生成方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。