买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种车内反馈音效的风格迁移方法_辽宁工程技术大学_202311165355.1 

申请/专利权人:辽宁工程技术大学

申请日:2023-09-11

公开(公告)日:2024-03-19

公开(公告)号:CN117198308B

主分类号:G10L21/003

分类号:G10L21/003;G10L21/013;G10L25/18

优先权:

专利状态码:有效-授权

法律状态:2024.03.19#授权;2023.12.26#实质审查的生效;2023.12.08#公开

摘要:本发明公开了一种车内反馈音效的风格迁移方法,采集原始风格音乐音频的双通道音乐样本生成音频样本集;通过对音频样本集中的音乐样本进行CQT变换特征提取获取CQT频谱Xcqt;并基于风格迁移算法对CQT频谱Xcqt进行音频风格迁移处理,获取目标风格音频;将获取的所述目标风格音频输出至汽车内,实现车内反馈音效的风格迁移过程。本发明提供了一种车内反馈音效的风格迁移方法,有效的解决了现有方法生成的音频质量不高,无法完整保留原始音频旋律的问题;使在保留原始音频旋律的同时实现音色的转变,生成高质量的音频,提升了人们对汽车座舱的声音体验感。

主权项:1.一种车内反馈音效的风格迁移方法,其特征在于,包括以下步骤:S1:采集原始风格音乐音频的双通道音乐样本生成音频样本集;S2:对所述音频样本集中的音乐样本进行CQT变换特征提取,获取CQT频谱Xcqt;所述获取CQT频谱Xcqt,包括以下步骤:S2.1:将所述音频样本集中的双通道音乐样本的数据格式统一转换为WAV格式;S2.2:将格式转换后的所述双通道音乐样本进行通道转换,获取单通道音乐样本;且所述进行通道转换的公式为X=TransformMusic1m×c其中,X表示转换成单通道后的音乐样本数据;Transform表示将双通道的音乐样本转换为单通道;Music1m×c是大小为m×c的二维音乐样本矩阵;m表示音乐样本在时间序列上的长度;c表示音乐样本的通道数;S2.3:对所述单通道音乐样本进行分帧操作,获取单通道音乐样本的分量向量;且所述进行分帧操作的计算公式为xn=X[nM:nM+N-1],n∈[0,Z其中,n表示帧索引值;Z表示帧数;表示单通道音乐样本在第n帧处的分量向量;N表示帧长;M表示帧移;S2.4:根据分帧操作后的单通道音乐样本的音频数据频率构建中心频率呈几何分布的滤波器组;且所述中心频率呈几何分布的滤波器组的表达式为wk,m=α+1-αcos2πmNk,α=2546,m∈[0,Nk-1]其中,wk,m表示中心频率呈几何分布的滤波器组;α表示给定系数;Nk表示随频率变换的滤波器窗口长度;m表示音乐样本在时间序列上的长度;k表示音乐样本分帧操作后的时间序列的数量;S2.5:基于所述中心频率呈几何分布的滤波器组对所述单通道音乐样本的分量向量进行CQT变换特征提取半音的频谱序列,获取CQT变换的单通道音乐样本的各谱分量;所述获取CQT变换的单通道音乐样本的各谱分量的计算公式为 其中,表示用来保存中心频率为fk的第k个半音的频谱能量;xnm为经过分帧处理后的单通道音乐数据的时域信号;表示长度为Nk的窗函数;j表示复数单位;Q表示常量参数;Nk表示随频率变换的滤波器窗口长度;S2.6:将所述获取CQT变换的单通道音乐样本的各谱分量进行联合,获得CQT频谱Xcqt;且所述得CQT频谱Xcqt的表达式为 其中,表示包含各个频谱分量的分音矩阵;S3:通过风格迁移算法对所述CQT频谱Xcqt进行音频风格迁移处理,获取目标风格音频;所述通过风格迁移算法对所述CQT频谱Xcqt进行音频风格迁移,包括以下步骤:S3.1:定义风格迁移算法的前向扩散过程权重项βtt=1,2,...,T,并根据所述前向扩散过程权重项βt设置风格迁移算法参数αt=1-βt;S3.2:通过前向扩散过程公式对所述CQT频谱Xcqt进行前向扩散,获得经过t步前向扩散后的最终频谱图Xt;且所述前向扩散过程公式为 其中,Xt表示经过t步前向扩散后的谱图;X1表示未经过前向扩散的原始CQT频谱;ε表示服从高斯分布的噪声;N表示高斯分布;I表示单位矩阵;S3.3:构建含有目标音色的音乐样本的目标音色特征矩阵prompt,并将所述目标音色特征矩阵prompt与经过t步前向扩散后的所述最终频谱图Xt,通过所述风格迁移算法的反向生成过程,获得具有目标音色的音乐音频;所述构建含有目标音色的音乐样本的目标音色特征矩阵prompt,包括以下步骤:S3.3.1:给定目标音乐样本,并基于快速傅里叶变换将所述目标音乐样本的数据信号从时域信号转换为频域信号,更新所述目标音乐样本;所述目标音乐样本从时域信号转换为频域信号的计算公式为 其中,F表示经过快速傅里叶变换后的频域信号;Y表示音乐样本经过采样后的时域信号;FS表示时域中的采样点总数;j表示复数单位;N表示帧长;S3.3.2:计算更新后的所述目标音乐样本的频谱质心;所述频谱质心的计算公式为 其中,Cn表示目标音乐样本第n帧的频谱质心;ln表示第n帧信号经过快速傅里叶变换后子带w中频率的最小值;hn表示第n帧信号经过快速傅里叶变换后子带w中频率的最大值;Fnw表示第n帧中子带w经过时域信号转换为频域信号的输出;并基于所述频谱质心获取频谱质心的一阶导数Cn′与频谱质心的二阶导数Cn″;所述频谱质心的一阶导数Cn′与二阶导数Cn″的表达式为Cn′=Cn+1-CnCnCn″=Cn+1′-Cn′Cn′其中,Cn表示目标音乐样本第n帧的频谱质心;Cn+1表示目标音乐样本第n+1帧的频谱质心;S3.3.3:计算更新后的所述目标音乐样本的频谱带宽;且所述频谱带宽的计算公式为 其中,Sn表示目标音乐样本第n帧的频谱带宽;w0表示常量参数;Cn表示目标音乐样本第n帧的频谱质心;Fnw表示第n帧中子带w经过时域信号转换为频域信号的输出;并基于所述频谱带宽获取频谱带宽的一阶导数Sn′与频谱带宽的二阶导数Sn″;所述频谱带宽的一阶导数Sn′与二阶导数Sn″的表达式为Sn′=Sn+1-SnSnSn″=Sn+1′-Sn′Sn′其中,Sn表示目标音乐样本第n帧的频谱带宽;Sn+1表示目标音乐样本第n+1帧的频谱带宽;S3.3.4:将所述频谱质心、频谱质心的一阶导数Cn′与二阶导数Cn″以及频谱带宽的一阶导数Sn′与二阶导数Sn″通过concat函数进行拼接联合操作,获得目标音色特征矩阵prompt;所述目标音色特征矩阵prompt的表达式为prompt=concatCn,Cn′,Cn″,Sn,Sn′,Sn″;S3.3中通过所述风格迁移算法的反向生成过程,获得具有目标音色的音乐音频,具体为将S3.2获取的最终频谱图Xt输入至带有ReLU激活函数的第一卷积层中进行卷积处理,获得优化频谱图;out1=ReLUconv1dXt其中,out1表示第一卷积层的输出;conv1d表示一维卷积层;将S3.3.4获取的目标音色特征矩阵prompt输入到第二卷积层中,通过卷积操作对目标音色特征矩阵prompt中的目标音色特征进行特征表达;out2=conv1dprompt其中,out2表示第二卷积层的输出;将所述第一卷积层的输出out1与第二卷积层的输出out2通过concat函数进行拼接联合操作并输出联合结果out3;out3=concatout1,out2将联合结果out3输入到第三卷积层中进行卷积运算;并将所述第三卷积层的输出out输入至所述风格迁移算法的反向生成过程,获取具有目标音色的音乐音频;所述风格迁移算法的反向生成过程的计算公式为out=conv1dout3 其中,out表示第三卷积层卷积后的输出;OUTt表示经过反向生成过程得到的具有目标音色的音乐音频;βt表示前向扩散过程权重项;ε表示服从高斯分布的噪声;S4:将获取的所述目标风格音频输出至汽车内,实现车内反馈音效的风格迁移过程。

全文数据:

权利要求:

百度查询: 辽宁工程技术大学 一种车内反馈音效的风格迁移方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。