买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】用于从缩混信号产生音频输出信号的解码器和方法_弗劳恩霍夫应用研究促进协会_201910433878.7 

申请/专利权人:弗劳恩霍夫应用研究促进协会

申请日:2013-08-05

公开(公告)日:2024-04-09

公开(公告)号:CN110223701B

主分类号:G10L19/008

分类号:G10L19/008

优先权:["20120803 US 61/679,404"]

专利状态码:有效-授权

法律状态:2024.04.09#授权;2019.10.08#实质审查的生效;2019.09.10#公开

摘要:本发明涉及一种用于从缩混信号产生音频输出信号的解码器和方法。提供了一种用于从包括一个或更多个缩混声道的缩混信号产生包括一个或更多个音频输出声道的音频输出信号的解码器。缩混信号编码两个或更多个音频对象信号。解码器包括阈值确定器110,用于根据两个或更多个音频对象信号中的至少一个的信号能量和或噪声能量和或者根据一个或更多个缩混声道中的至少一个的信号能量和或噪声能量确定阈值。此外,解码器包括处理单元120,用于根据阈值从一个或更多个缩混声道产生一个或更多个音频输出声道。

主权项:1.一种用于从包括两个或更多个缩混声道的缩混信号产生包括一个或更多个音频输出声道的音频输出信号的解码器,其中,所述缩混信号编码两个或更多个音频对象信号,其中,所述解码器包括:阈值确定器110,用于根据所述两个或更多个音频对象信号中的至少一个的信号能量或噪声能量、或者根据所述一个或更多个缩混声道中的至少一个的信号能量或噪声能量来确定阈值,以及处理单元120,用于根据所述阈值从所述一个或更多个缩混声道产生所述一个或更多个音频输出声道,其中,所述处理单元120被配置成通过在用于对缩混声道互相关矩阵Q求逆的函数中应用所述阈值,来从所述一个或更多个缩混声道产生所述一个或更多个音频输出声道,其中,所述处理单元120被配置成通过计算所述缩混声道互相关矩阵Q的特征值来从所述一个或更多个缩混声道产生所述一个或更多个音频输出声道。

全文数据:用于从缩混信号产生音频输出信号的解码器和方法本申请为于2015年4月2日提交、申请号为201380051915.9、发明名称为“用于多声道缩混上混情况的通用空间音频对象编码参数化概念的解码器和方法”的中国专利申请的分案申请。所述母案申请的国际申请日为2013年8月5日,国际申请号为PCTEP2013066405。技术领域本发明涉及一种用于多声道缩混上混情况的通用空间音频对象编码参数化概念的设备和方法。背景技术在现代数字音频系统中,允许在接收方侧对所传输的内容进行与音频对象相关的修改是主要趋势。这些修改包括在经由空间分布的扬声器进行多声道播放的情况下对专用音频对象的空间重定位和或音频信号的所选择部分的增益修改。这可以通过将音频内容的不同部分分别传送到不同的扬声器来实现。换言之,在音频处理、音频传输以及音频存储领域中,越来越期望允许对面向对象的音频内容播放进行用户交互,并且还需要利用多声道播放的扩展可能性以单独地渲染render音频内容或者部分音频内容,以便改进听觉感受。由此,多声道音频内容的使用为用户带来显著的改进。例如,可以获得三维听觉感受,这在娱乐应用中带来了改进的用户满意度。然而,多声道音频内容在专业环境中,例如在电话会议应用中,同样是有用的,因为可以通过使用多声道音频播放来改进讲话者的清晰度。为音乐作品的听众提供了另一个可能的应用,以单独调整诸如人声部分或者不同乐器的不同部分也称为“音频对象”或音轨的播放电平和或空间位置。用户可以出于个人品味的原因、出于从音乐作品中更容易地改编一个或更多个部分的原因、出于教学目的、卡拉OK、排练等的原因而进行这种调整。对例如以脉冲编码调制PCM数据或者甚至是压缩音频格式的形式的全数字多声道或多对象音频内容的直接的离散传输要求非常高的比特率。然而,以高比特率效率的方式来传输和存储音频数据也是理想的。因此,为了避免由多声道多对象应用引起的过度资源负荷,人们乐于在音频质量与比特率要求之间接受合理的折衷。近来,在音频编码领域中,由例如运动图像专家组MPEG等提出了用于对多声道多对象音频信号的比特率高效的传输存储的参数化技术。一个示例是作为面向声道的方法[MPS、BCC]的MPEG环绕声MPS,或者作为面向对象的方法[JSC、SAOC、SAOC1、SAOC2]的MPEG空间音频对象编码SAOC。另一种面向对象的方法称为“知情源分离”[ISS1、ISS2、ISS3、ISS4、ISS5、ISS6]。这些技术旨在基于对声道对象以及附加的辅助信息sideinformation的缩混来重建期望的输出音频场景或者期望的音频源对象,其中辅助信息描述所传输的存储的音频场景和或音频场景中的音频源对象。以时间-频率选择方式来完成对这样的系统中的声道对象相关的辅助信息的估计和应用。因此,这样的系统采用时间-频率变换,诸如离散傅里叶变换DFT、短时间傅里叶变换STFT或者如正交镜像滤波器QMF组的滤波器组等。在图2中,使用MPEGSAOC的示例来描绘这样的系统的基本原理。在STFT的情况下,时间维度由时间块的数量来表示,而频谱维度通过频谱系数“频率点”“bin”的数量来捕获。在QMF的情况下,时间维度由时隙的数量来表示,而频谱维度通过子频带的数量来捕获。如果通过随后应用的第二滤波器级来改进QMF的频谱分辨率,则整个滤波器组称为混合QMF,并且高分辨率子频带称为混合子频带。如上文提及,在SAOC中,一般的处理是以时间-频率选择性的方式来执行的,并且可以在每个频带内被描述如下,如图2中所示:-作为编码器处理的一部分,使用由元素d1,1…dN,P构成的缩混矩阵将N个输入音频对象信号s1…sN混缩成P个声道x1…xP,另外,编码器提取描述输入音频对象的特性的辅助信息辅助信息估计器SIE模块。针对MPEGSAOC,对象功率w.r.t的彼此关系是这种辅助信息的最基本的形式。-缩混信号和辅助信息被传输存储。为此,例如使用诸如MPEG-12LayerII或者IIIaka.mp3、MPEG-24增强音频编码AAC等的众所周知的感知音频编码器可以将缩混音频信号压缩。-在接收端,解码器在概念上试图使用所传输的辅助信息来从经解码的缩混信号中恢复原始的对象信号“对象分离”。然后,在图2中,使用由系数r1,1…rN,M描述的渲染矩阵来将这些近似的对象信号混合到由M个音频输出声道表示的目标场景中。在极端情况下,期望的目标场景可以是混合音中的仅一个源信号的渲染源分离方案,但是也可以是由所传输的对象组成的其他任意声学场景。例如,输出可以是单声道、2声道立体声或者5.1多声道目标场景。在音频编码领域中增加的可用存储带宽以及正在进行的改进允许用户从稳定增加的多声道音频制作的选择中进行选择。多声道5.1音频格式已经是DVD和蓝光制作中的标准。具有甚至更多音频传输声道的新的音频格式如MPEG-H3D音频出现在人们面前,这给终端用户提供了高度沉浸感的音频体验。目前参数化的音频对象编码方案被限制在最多两个缩混声道。他们仅可以在一定程度上应用于多声道混合音,例如仅应用于两个所选择的缩混声道。这样,严重地限制了这些编码方案提供给用户以将音频场景调整到他她自己的偏好的灵活性,例如,关于改变体育评论员和体育广播中的氛围的音频电平。此外,当前的音频对象编码方案在编码器侧的混合处理中仅提供了有限的可变性。混合处理限于音频对象的时变混合,而不可能进行频变混合。因此如果可以提供用于音频对象编码的改进的概念则是非常有益的。发明内容本发明的目的在于提供用于音频对象编码的改进的概念。提供了一种用于从包括一个或更多个缩混声道的缩混信号产生包括一个或更多个音频输出声道的音频输出信号的解码器。缩混信号将一个或更多个音频对象信号编码。解码器包括阈值确定器,用于根据两个或更多个音频对象信号中的至少一个的信号能量和或噪声能量、和或者根据一个或更多个缩混声道中的至少一个的信号能量和或噪声能量来确定阈值。此外,解码器包括处理单元,用于根据阈值从一个或更多个缩混声道产生一个或更多个音频输出声道。根据一个实施方式,缩混信号可以包括两个或更多个缩混声道,并且阈值确定器可以被配置成根据两个或更多个缩混声道中的每个缩混声道的噪声能量来确定阈值。在一个实施方式中,阈值确定器可以被配置成根据两个或更多个缩混声道中的所有噪声能量的总和来确定阈值。根据一个实施方式,缩混信号可以编码两个或更多个音频对象信号,并且阈值确定器可以被配置成根据两个或更多个音频对象信号中的、具有两个或更多个音频对象信号中的最大信号能量的音频对象信号的信号能量来确定阈值。在一个实施方式中,缩混信号可以包括两个或更多个缩混声道,并且阈值确定器可以被配置成根据两个或更多个缩混声道中的所有噪声能量的总和确定阈值。根据一个实施方式,缩混信号能够针对多个时间-频率片tile中的每个时间-频率片编码一个或更多个音频对象信号。阈值确定器可以被配置成根据两个或更多个音频对象信号中的至少一个的信号能量或噪声能量、或者根据一个或更多个缩混声道中的至少一个的信号能量或噪声能量李艾确定多个时间-频率片中的每个时间-频率片的阈值,其中多个时间-频率片中的第一时间-频率片的第一阈值可以与多个时间-频率片中的第二时间-频率片的不同。处理单元可以被配置成针对多个时间-频率片的中每个时间-频率片、根据针对所述时间-频率片的阈值而从一个或更多个缩混声道产生一个或更多个音频输出声道的每个音频输出声道的声道值。在一个实施方式中,解码器可以被配置成根据下面的公式确定以分贝为单位的阈值T:T[dB]=Enoise[dB]-Eref[dB]-Z或者根据以下公式确定阈值TT[dB]=Enoise[dB]-Eref[dB]Z其中T[dB]表示以分贝为单位的阈值,其中Enoise[dB]表示在两个或更多个缩混声道中以分贝为单位的所有噪声能量的总和,其中Eref[dB]表示以分贝为单位的音频对象信号之一的信号能量,并且其中Z作为数值而表示附加参数。在一个替代实施方式中,Enoise[dB]表示将两个或更多个缩混声道中以分贝为单位的所有噪声能量的总和除以缩混声道的数量。根据一个实施方式,解码器可以被配置成根据下面的公式确定阈值T:或者根据以下公式确定阈值T其中T表示阈值,其中Enoise表示两个或更多个缩混声道中的所有噪声能量的总和,其中Eref表示音频对象信号之一的信号能量,并且其中Z作为数值而表示附加参数。在一个替代实施方式中,Enoise[dB]表示将两个或更多个缩混声道中的所有噪声能量的总和除以缩混声道的数量。根据一个实施方式,处理单元可以被配置成根据一个或更多个音频对象信号的对象协方差矩阵E、根据用于缩混两个或更多个音频对象信号以获得两个或更多个缩混声道的缩混矩阵D以及根据阈值,从一个或更多个缩混声道产生一个或更多个音频输出声道。在一个实施方式中,处理单元被配置成通过在用于对缩混声道互相关矩阵Q求逆的函数中应用阈值,来从一个或更多个缩混声道产生一个或更多个音频输出声道,其中Q为被定义为:Q=DED*,其中D是用于缩混两个或更多个音频对象信号以获得两个或更多个缩混声道的缩混矩阵,其中E是一个或更多个音频对象信号的对象协方差矩阵。例如,处理单元可以被配置成通过计算缩混声道互相关矩阵Q的特征值或者通过计算缩混声道互相关矩阵Q的奇异值,来从一个或更多个缩混声道产生一个或更多个音频输出声道。例如,处理单元可以被配置成通过将缩混声道互相关矩阵Q的特征值中的最大特征值与阈值相乘以获得相对阈值,来从一个或更多个缩混声道产生一个或更多个音频输出声道。例如,处理单元可以被配置成通过产生经修正的矩阵来从一个或更多个缩混声道产生一个或更多个音频输出声道。处理单元可以被配置成仅根据缩混声道互相关矩阵Q的如下特征向量产生经修正的矩阵:该特征向量具有缩混声道互相关矩阵Q的特征值中的、大于或等于经修正的阈值的特征值。此外,处理单元可以被配置成执行经修正的矩阵的矩阵求逆以获得逆矩阵。此外,处理单元可以被配置成在一个或更多个缩混声道上应用逆矩阵以产生一个或更多个音频输出声道。此外,提供了一种用于从包括一个或更多个缩混声道的缩混信号产生包括一个或更多个音频输出声道的音频输出信号的方法。缩混信号编码一个或更多个音频对象信号。解码器包括:-根据一个或更多个音频对象信号中的至少一个的信号能量或噪声能量或者根据一个或更多个缩混声道中的至少一个的信号能量或噪声能量来确定阈值,以及-根据阈值从一个或更多个缩混声道产生一个或更多个音频输出声道。此外,提供了一种计算机程序,当该计算机程序在计算机或信号处理器上被执行时,用于实施上述方法。附图说明在下文中,将参照附图更具体地描述本发明的实施方式,其中:图1示出了根据一个实施方式的用于产生包括一个或更多个音频输出声道的音频输出信号的解码器;图2是示出了使用MPEGSAOC的示例的这样的系统的原理的SAOC系统概览;图3示出了G-SAOC参数化上混概念的概览;以及图4示出了一般的缩混上混概念。具体实施方式在描述本发明的实施方式之前,提供了现有技术的SAOC系统的更多背景。图2示出了SAOC编码器10和SAOC解码器12的整体布置。SAOC编码器10接收作为输入的N个对象,即音频信号S1至SN,。特别地,编码器10包括缩混器16,缩混器16接收音频信号S1至SN并且将其缩混成缩混信号18。可替代地,可以从外部提供缩混“艺术缩混”并且系统对附加的辅助信息进行估计以使提供的缩混与计算的缩混匹配。在图2中,示出的缩混信号为P声道信号。这样,可得到任何单声道P=1、立体声P=2或者多声道P2缩混信号配置。在立体声缩混的情况下,缩混信号18的声道用L0和R0来表示,在单声道缩混的情况下,缩混信号18的声道简单地用L0来表示。为了使SAOC解码器12能够对个体对象s1至sN进行恢复,辅助信息估计器17为SAOC解码器12提供包括SAOC参数的辅助信息。例如,在立体声缩混的情况下,SAOC参数包括对象电平差OLD、对象间相关性IOC对象间互相关参数、缩混增益值DMG以及缩混声道电平差DCLD。包括SAOC参数的辅助信息20连同缩混信号18一起形成由SAOC解码器12接收的SAOC输出数据流。SAOC解码器12包括接收缩混信号18以及辅助信息20的上混合器,以便将音频信号和恢复并且渲染到任何用户选择的声道集合至上,其中上述渲染由输入到SAOC解码器12中的渲染信息26规定。可以将音频信号s1至sN按诸如时域或频域的任何编码域输入到编码器10中。在音频信号s1至sN按诸如PCM编码的时域馈入到编码器10的情况下,编码器10可以使用诸如混合QMF组的滤波器组,以便将信号转换到频域中,在频域中,以特定滤波器组分辨率将音频信号表示在与不同频谱部分相关联的若干个子频带中。在音频信号s1至sN已经按编码器10所期望的表示的情况下,则音频信号s1至sN不必执行频谱分解。混合处理中更多的灵活性允许最优地利用信号对象特性。可以产生关于所认知的品质而针对解码器侧的参数化分离进行优化的混缩。实施方式对任意数量的缩混上混声道的SAOC方案的参数化部分进行扩展。下图提供了通用空间音频对象编码G-SAOC参数化上混概念的概述:图3示出了G-SAOC参数化上混概念的概览。可以实现对参数化重建的音频对象的完全灵活的后混合post-mixing渲染。尤其,图3示出了音频解码器310、对象分离器320和渲染器330。我们考虑下述通用标记:x-输入音频对象信号Nobj大小的y-缩混音频信号Ndmx大小的z-渲染的输出场景信号Nupmix大小的D-缩混矩阵Nobj×Ndmx大小的R-渲染矩阵Nobj×Nupmix大小的G-参数化上混矩阵Ndmx×Nupmix大小的E-对象协方差矩阵Nobj×Nobj大小的所有引入的矩阵都通常是时变和频变的。在下文中,提供了参数化上混的本构关系。首先,参照图4提供了一般的缩混上混概念。特别地,图4示出了一般的缩混上混概念,其中图4示出了模型化上混系统左和参数化上混系统右。更特别地,图4示出了渲染单元410、缩混单元421和参数化上混单元422。理想模型化的渲染的输出场景信号z被定义为,参见图左:Rx=z.1缩混音频信号y被确定为,参见图4右:Dx=y.2用于参数化输出场景信号重建的本构关系应用于缩混音频信号可以被表示为,参见图4右:Gy=z.3根据式1和2,参数化上混矩阵可以被定义为缩混矩阵和渲染矩阵的如下函数G=GD,R:G=RED*DED*-1.4在下文中,考虑改进根据实施方式的参数化源估计的稳定性。MPEGSAOC内的参数化分离方案基于混合音中对源的最小均方LMS估计。LMS估计涉及对参数化描述的缩混声道协方差矩阵Q=DED*的求逆。矩阵求逆的算法通常对病态矩阵敏感。对这样的矩阵求逆能够在渲染的输出场景中引起称为人为artifacts的不自然的声音。当前在MPEGSAOC中的试探性确定的固定阈值T避免了这个问题。尽管通过该方法避免了失真,但因而无法在解码器侧实现足够的可能的分离性能。图1示出了根据实施方式的一种用于从包括一个或更多个缩混声道的缩混信号产生包括一个或更多个音频输出声道的音频输出信号的解码器。缩混信号对一个或更多个音频对象信号编码。解码器包括用于根据两个或更多个音频对象信号中的至少一个的信号能量和或噪声能量和或者根据一个或更多个缩混声道中的至少一个的信号能量和或噪声能量确定阈值的阈值确定器110。此外,解码器包括用于根据阈值从一个或更多个缩混声道产生一个或更多个音频输出声道的处理单元120。与现有技术相反,阈值确定器110根据经编码的一个或更多个音频对象信号或者一个或更多个缩混声道的信号能量或噪声能量确定阈值。在实施方式中,当一个或更多个缩混声道和或一个或更多个音频对象信号值的信号能量和噪声能量变化时,阈值也变化,例如,从时刻到时刻,从时间-频率片到时间-频率片。实施方式提供了用于矩阵求逆的适应性阈值方法以实现在解码器侧的音频对象的改进的参数化分离。一般来说,分离性能会更好但不会少于当前使用在MPEGSAOC中的、对Q矩阵求逆的算法中利用的固定阈值方案。阈值T动态地适应于每个被处理的时间-频率片的数据的精度。因此改进了分离性能并且避免了由对病态矩阵求逆引起的渲染的输出场景中的失真。根据一个实施方式,缩混信号可以包括两个或更多个缩混声道,并且阈值确定器110可以被配置成根据两个或更多个缩混声道的每个的噪声能量确定阈值。在一个实施方式中,阈值确定器110可以被配置成根据两个或更多个缩混声道中的所有噪声能量的总和确定阈值。根据一个实施方式,缩混信号可以编码两个或更多个音频对象信号,并且阈值确定器110可以被配置成根据两个或更多个音频对象信号中的、具有两个或更多个音频对象信号中的最大信号能量的音频对象信号的信号能量来确定阈值。在一个实施方式中,缩混信号可以包括两个或更多个缩混声道,并且阈值确定器110可以被配置成根据两个或更多个缩混声道中的所有噪声能量的总和确定阈值。根据一个实施方式,缩混信号可以针对多个时间-频率片的每个时间-频率片编码一个或更多个音频对象信号。阈值确定器110可以被配置成根据两个或更多个音频对象信号中的至少一个的信号能量或噪声能量或者根据一个或更多个缩混声道的至少一个的信号能量或噪声能量确定多个时间-频率片的每个时间-频率片的阈值,其中多个时间-频率片的第一时间-频率片的第一阈值可能与多个时间-频率片的第二时间-频率片的不同。处理单元120可以被配置成针对多个时间-频率片的每个时间-频率片根据所述时间-频率片的阈值从一个或更多个缩混声道产生一个或更多个音频输出声道的每个的声道值。根据一个实施方式,解码器可以被配置成根据以下公式确定阈值T或者根据以下公式确定阈值T其中T表示阈值,其中Enoise表示两个或更多个缩混声道中所有噪声能量的总和,其中Eref表示音频对象信号中的一个的信号能量,并且其中Z作为数值而表示附加参数。在一个替代实施方式中,Enoise表示将两个或更多个缩混声道中的所有噪声能量的总和除以缩混声道的数量。在一个实施方式中,解码器可以被配置成根据以下公式确定以分贝为单位的阈值T:T[dB]=Enoise[dB]-Eref[dB]-Z或者根据以下公式确定阈值TT[dB]=Enoise[dB]-Eref[dB]Z其中T[dB]表示以分贝为单位的阈值,其中Enoise[dB]表示两个或更多个缩混声道中以分贝为单位的所有噪声能量的总和,其中Eref[dB]表示以分贝为单位的音频对象信号之一的信号能量,并且其中Z作为数值而表示附加参数。在一个替代实施方式中,Enoise[dB]表示将两个或更多个缩混声道中以分贝为单位的所有噪声能量的总和除以缩混声道的数量。特别地,可以通过下式给出针对每个时间-频率片的阈值的粗略估计:T[dB]=Enoise[dB]-Eref[dB]-Z5Enoise可以表示噪声本底水平,例如,缩混声道中的所有噪声能量的总和。可以通过音频数据的分辨率定义噪声本底,例如,由声道的PCM编码引起的噪声本底。另一种可能是在缩混被压缩的情况下考虑编码噪声。针对这样的情况,可以增加由编码算法引起的噪声本底。在一个替代实施方式中,Enoise[dB]表示将两个或更多个缩混声道中以分贝为单位的所有噪声能量的总和除以缩混声道的数量。Eref可以表示参考信号能量。在最简单的形式中,其可以是最强音频对象的能量:Eref=maxE.6Z可以表示惩罚因子以应付影响分离分辨率的附加参数,例如,缩混声道的数量和源对象数量的差异。分离性能随着音频对象的数量的增加而下降。此外,还可以包括关于分离的参数化辅助信息的量化的影响。在一个实施方式中,处理单元120被配置成根据一个或更多个音频对象信号的对象协方差矩阵E,根据用于缩混两个或更多个音频对象信号以获得两个或更多个缩混声道的缩混矩阵D,以及根据阈值从一个或更多个缩混声道产生一个或更多个音频输出声道。根据一个实施方式,为了根据阈值从一个或更多个缩混声道产生一个或更多个音频输出声道,处理单元120可以被配置成按如下进行:按求逆参数化估计的缩混声道互相关矩阵Q的功能在解码器侧应用阈值其可以被称为“分离-分辨率阈值”。计算Q的奇异值和Q的特征值。取最大特征值并与阈值T相乘。除了该最大特征值外的所有特征值与这个相对阈值相比较并且在它们更小的情况下被省略。随后,在经修正的矩阵上执行矩阵求逆,其中,经修正的矩阵例如可以是由减少的向量的集合定义的矩阵。应当注意,针对除了最高特征值以外的所有特征值都被省略的情况,如果特征值较低,则应将最高特征值设定为噪声本底水平。例如,处理单元120可以被配置成通过产生经修正的矩阵从一个或更多个缩混声道产生一个或更多个音频输出声道。可以仅根据缩混声道互相关矩阵Q的如下特征向量产生经修正的矩阵:其具有缩混声道互相关矩阵Q的特征值中的大于或等于经修正的阈值的特征值。处理单元120可以被配置成执行对经修正的矩阵的矩阵求逆以获得逆矩阵。随后,处理单元120可以被配置成在一个或更多个缩混声道上应用上述逆矩阵以产生一个或更多个音频输出声道。例如,以如将矩阵积DED*的逆矩阵应用在缩混声道上的多个方式中的一个,逆矩阵可以被应用在一个或更多个缩混声道上参见,例如[SAOC],特别参见例如:ISOIEC,“MPEGaudiotechnologies–Part2:SpatialAudioObjectCodingSAOC,”ISOIECJTC1SC29WG11MPEGInternationalStandard23003-2:2010,特别参见章节“SAOCProcessing”,更具体地参见子章节“Transcodingmodes”和子章节“Decodingmodes”。可以用于估计阈值T的参数可以在编码器侧被确定并被嵌入参数化辅助信息中,或者在解码器侧被直接估计。可以在编码器侧使用简化版本的阈值估计器以在解码器侧表示源估计中的潜在不稳定性。在其最简单的形式中,忽略所有噪声项,可以计算缩混矩阵的范数,其表示用于在解码器侧对源信号进行参数化估计的可用缩混声道的全部潜能不能被利用。在混合处理期间,可以使用这样的指标以避免混合对源信号的估计关键的矩阵。关于对象协方差矩阵的参数化,人们能够看到:基于本构关系4描述的参数化上混方法对对象协方差矩阵E的非对角线实体的符号具有不变性。这产生对表示对象间相关性的值更加有效相比SAOC的参数化量化和编码的可能性。关于表示缩混矩阵的信息的传输,通常,音频输入和缩混信号x、y与协方差矩阵E一起在编码器侧确定。将音频缩混信号y的编码表示和描述协方差矩阵E的信息向解码器侧传输经由比特流的有效载荷。设定渲染矩阵R并且在解码器侧可用。可以使用以下原理方法确定在编码器处和获得在解码器处表示缩混矩阵D的信息应用在编码器并且用作解码器。缩混矩阵D可以:-被设定和应用在编码器处并且经由比特流有效载荷明确地传输向解码器其量子化和编码表示。-被分配和应用在编码器处并且通过使用存储的查找表即预定的缩混矩阵的集合被恢复在解码器处。-被分配和应用在编码器处并且根据特定的算法或方法例如,特别加权weighted和向可用的缩混声道有序等距布置orderedequidistantplacement音频对象被恢复在解码器处。-被估计和应用在编码器处并且通过使用允许对输入音频对象进行“灵活混合”的特定优化标准即用于在解码器侧对音频对象的参数化估计进行优化的缩混矩阵的产生被恢复在解码器处。例如,编码器依据特别的信号特性重建,如协方差、信号间相关性或者改进确保参数化上混算法的数值稳定性,以使参数化上混更有效的方式产生缩混矩阵。提供的实施方式可以被应用在任意数量的缩混上混声道上。其可以与任何当前和未来的音频格式相结合。创造性方法的灵活性允许绕过未改变的声道以减少计算复杂性,减少比特流有效载荷减少的数据量。提供了一种用于编码的音频编码器、方法或计算机程序。此外,提供了一种用于解码的音频解码器、方法或计算机程序。此外,提供了一种编码信号。尽管在上下文中已经描述了设备的一些方面,显然这些方面还表示相应方法的描述,其中模块或器件与方法步骤或方法步骤的特征相对应。类似地,在上下文中描述的方法步骤的方面也表示相应设备的相应的模块或项目或特征的描述。创造性的分解信号可以被存储在数字存储介质上或可以在传输介质例如无线传输介质或诸如英特网的有线传输介质上传输。根据某些实施要求,本发明的实施方式可以以硬件或软件实施。可以通过使用其上存储有电子可读控制信号的数字存储介质例如软盘、DVD、CD、ROM、PROM、EPROM、EEPROM或FLASH存储器来执行上述实施,数字存储介质配合或能够配合可编程计算机系统,使得各自的方法被执行。根据本发明的一些实施方式包括具有电子可读控制信号的非临时性数据载体,电子可读控制信号能够配合可编程计算机系统,使得执行本文描述的方法之一。通常,本发明的实施方式可以实施为具有程序代码的计算机程序产品,当计算机程序产品在计算机上运行时,程序代码可操作用于执行上述方法之一。程序代码例如可以被存储在机器可读载体上。其他实施方式包括存储在机器可读载体上的、用于执行本文描述的上述方法之一的计算机程序。因此换言之,创造性方法的一个实施方式是计算机程序,当计算机程序在计算机上运行时,计算机程序具有用于执行本文描述的上述方法之一的程序代码。因此,创造性方法的另一实施方式是包括记录在其上的用于执行本文描述的上述方法之一的计算机程序的数据载体或数字存储介质,或计算机可读介质。因此,创造性方法的另一实施方式是表示用于执行本文描述的上述方法之一的计算机程序的数据流或信号序列。数据流或信号序列例如可以被配置成例如经由英特网、经由数据通信连接被传送。另一实施方式包括处理装置,例如计算机,或可编程逻辑器件,被配置成或适于执行本文描述的方法之一。另一实施方式包括具有安装在其上的、用于执行本文描述的方法之一的计算机程序的计算机。在一些实施方式中,可编程逻辑器件例如,现场可编程门阵列可以被用于执行本文描述的方法的一些或所有功能。在一些实施方式中,现场可编程门阵列可以与微处理器配合以便执行本文描述的方法之一。通常,上述方法优选由任何硬件设备执行。以上描述的实施方式仅仅用于说明本发明的原理。应当理解,本文描述的细节和布置的修改和变型对于本领域其他技术人员而言将是明显的。因此,意在仅由接下来的专利权利要求的范围所限制,而不由借助本文实施方式的解释和说明所呈现的具体细节所限制。参考文献[MPS]ISOIEC23003-1:2007,MPEG-DMPEGaudiotechnologies,Part1:MPEGSurround,2007.[BCC]C.FallerandF.Baumgarte,“BinauralCueCoding-PartII:Schemesandapplications,”IEEETrans.onSpeechandAudioProc.,vol.11,no.6,Nov.2003[JSC]C.Faller,“ParametricJoint-CodingofAudioSources”,120thAESConvention,Paris,2006[SAOC1]J.Herre,S.Disch,J.Hilpert,O.Hellmuth:"FromSACToSAOC-RecentDevelopmentsinParametricCodingofSpatialAudio",22ndRegionalUKAESConference,Cambridge,UK,April2007[SAOC2]J.B.Resch,C.Falch,O.Hellmuth,J.Hilpert,A.L.Terentiev,J.Breebaart,J.Koppens,E.SchuijersandW.Oomen:"SpatialAudioObjectCodingSAOC–TheUpcomingMPEGStandardonParametricObjectBasedAudioCoding",124thAESConvention,Amsterdam2008[SAOC]ISOIEC,“MPEGaudiotechnologies–Part2:SpatialAudioObjectCodingSAOC,”ISOIECJTC1SC29WG11MPEGInternationalStandard23003-2.[ISS1]M.ParvaixandL.Girin:“InformedSourceSeparationofunderdeterminedinstantaneousStereoMixturesusingSourceIndexEmbedding”,IEEEICASSP,2010[ISS2]M.Parvaix,L.Girin,J.-M.Brossier:“Awatermarking-basedmethodforinformedsourceseparationofaudiosignalswithasinglesensor”,IEEETransactionsonAudio,SpeechandLanguageProcessing,2010[ISS3]A.LiutkusandJ.PinelandR.BadeauandL.GirinandG.Richard:“Informedsourceseparationthroughspectrogramcodinganddataembedding”,SignalProcessingJournal,2011[ISS4]A.Ozerov,A.Liutkus,R.Badeau,G.Richard:“Informedsourceseparation:sourcecodingmeetssourceseparation”,IEEEWorkshoponApplicationsofSignalProcessingtoAudioandAcoustics,2011[ISS5]ShuhuaZhangandLaurentGirin:“AnInformedSourceSeparationSystemforSpeechSignals”,INTERSPEECH,2011[ISS6]L.GirinandJ.Pinel:“InformedAudioSourceSeparationfromCompressedLinearStereoMixtures”,AES42ndInternationalConference:SemanticAudio,2011关于包括以上实施例的实施方式,还公开下述的技术方案:项目1.一种用于从包括两个或更多个缩混声道的缩混信号产生包括一个或更多个音频输出声道的音频输出信号的解码器,其中,所述缩混信号编码两个或更多个音频对象信号,其中,所述解码器包括:阈值确定器110,用于根据所述两个或更多个音频对象信号中的至少一个的信号能量或噪声能量、或者根据所述一个或更多个缩混声道中的至少一个的信号能量或噪声能量来确定阈值,以及处理单元120,用于根据所述阈值从所述一个或更多个缩混声道产生所述一个或更多个音频输出声道。项目2.根据项目1所述的解码器,其中,所述阈值确定器110被配置成根据所述两个或更多个缩混声道中的每个缩混声道的噪声能量来确定所述阈值。项目3.根据项目2所述的解码器,其中,所述阈值确定器110被配置成根据所述两个或更多个缩混声道中的所有噪声能量的总和来确定所述阈值。项目4.根据前述项目之一所述的解码器,其中,所述阈值确定器110被配置成根据所述两个或更多个音频对象信号中的、具有所述两个或更多个音频对象信号中的最大信号能量的音频对象信号的信号能量来确定所述阈值。项目5.根据前述项目之一所述的解码器,其中,所述阈值确定器110被配置成根据所述两个或更多个缩混声道中的所有噪声能量的总和来确定所述阈值。项目6.根据前述项目之一所述的解码器,其中,所述缩混信号针对多个时间-频率片中的每个时间-频率片来编码所述一个或更多个音频对象信号,其中,所述阈值确定器110被配置成根据所述两个或更多个音频对象信号中的至少一个的信号能量或噪声能量、或者根据所述一个或更多个缩混声道的至少一个的信号能量或噪声能量来确定针对所述多个时间-频率片中的每个时间-频率片的阈值,其中,所述多个时间-频率片中的第一时间-频率片的第一阈值与所述多个时间-频率片中的第二时间-频率片的不同,以及其中,所述处理单元120被配置成针对所述多个时间-频率片中的每个时间-频率片、根据所述时间-频率片的阈值而从所述一个或更多个缩混声道产生所述一个或更多个音频输出声道中的每个音频输出声道的声道值。项目7.根据前述项目之一所述的解码器,其中,所述解码器被配置成根据以下公式确定以分贝为单位的所述阈值TT[dB]=Enoise[dB]-Eref[dB]-Z或者根据以下公式确定所述阈值TT[dB]=Enoise[dB]-Eref[dB],其中,T[dB]表示以分贝为单位的所述阈值,其中,Enoise[dB]表示所述两个或更多个缩混声道中以分贝为单位的所有噪声能量的总和,或者Enoise[dB]表示将所述两个或更多个缩混声道中以分贝为单位的所有噪声能量的总和除以所述两个或更多个缩混声道的数量,其中,Eref[dB]表示以分贝为单位的所述音频对象信号之一的信号能量,以及其中,Z表示作为数值的附加参数。项目8.根据项目1至6之一所述的解码器,其中,所述解码器被配置成根据以下公式确定所述阈值T或者根据以下公式确定所述阈值T其中,T表示所述阈值,其中,Enoise表示所述两个或更多个缩混声道中所有噪声能量的总和,或者Enoise[dB]表示将所述两个或更多个缩混声道中以分贝为单位的所有噪声能量的总和除以所述两个或更多个缩混声道的数量,其中,Eref表示所述音频对象信号之一的信号能量,以及其中,Z表示作为数值的附加参数。项目9.根据前述项目之一所述的设备,其中,所述处理单元120被配置成根据所述一个或更多个音频对象信号的对象协方差矩阵E、根据用于缩混所述两个或更多个音频对象信号以获得所述两个或更多个缩混声道的缩混矩阵D以及根据所述阈值,从所述一个或更多个缩混声道产生所述一个或更多个音频输出声道。项目10.根据项目9所述的设备,其中,所述处理单元120被配置成通过在用于对缩混声道互相关矩阵Q求逆的函数中应用所述阈值,来从所述一个或更多个缩混声道产生所述一个或更多个音频输出声道,其中,Q被定义为Q=DED*,其中,D是用于缩混所述两个或更多个音频对象信号以获得所述两个或更多个缩混声道的所述缩混矩阵,以及其中,E是所述一个或更多个音频对象信号的对象协方差矩阵。项目11.根据项目10所述的设备,其中,所述处理单元120被配置成通过计算所述缩混声道互相关矩阵Q的特征值或者通过计算所述缩混声道互相关矩阵Q的奇异值,来从所述一个或更多个缩混声道产生所述一个或更多个音频输出声道。项目12.根据项目10或11所述的设备,其中,所述处理单元120被配置成通过将所述缩混声道互相关矩阵Q的特征值中的最大特征值与所述阈值相乘以获得相对阈值,来从所述一个或更多个缩混声道产生所述一个或更多个音频输出声道。项目13.根据项目12所述的设备,其中,所述处理单元120被配置成通过产生经修正的矩阵来从所述一个或更多个缩混声道产生所述一个或更多个音频输出声道,其中,所述处理单元120被配置成仅根据所述缩混声道互相关矩阵Q的如下特征向量来产生所述经修正的矩阵:所述特征向量具有所述缩混声道互相关矩阵Q的特征值中的、大于或等于所述经修正的阈值的特征值,其中,所述处理单元120被配置成执行所述经修正的矩阵的矩阵求逆以获得逆矩阵,以及其中,所述处理单元120被配置成在一个或更多个所述缩混声道上应用所述逆矩阵以产生所述一个或更多个音频输出声道。项目14.一种用于从包括两个或更多个缩混声道的缩混信号产生包括一个或更多个音频输出声道的音频输出信号的方法,其中,所述缩混信号编码两个或更多个音频对象信号,其中,所述解码器包括:根据所述两个或更多个音频对象信号中的至少一个的信号能量或噪声能量、或者根据所述一个或更多个缩混声道中的至少一个的信号能量或噪声能量来确定阈值,以及根据所述阈值从所述一个或更多个缩混声道产生所述一个或更多个音频输出声道。项目15.一种计算机程序,当所述计算机程序在计算机或信号处理器上被执行时,用于实现根据项目14所述的方法。

权利要求:1.一种用于从包括两个或更多个缩混声道的缩混信号产生包括一个或更多个音频输出声道的音频输出信号的解码器,其中,所述缩混信号编码两个或更多个音频对象信号,其中,所述解码器包括:阈值确定器110,用于根据所述两个或更多个音频对象信号中的至少一个的信号能量或噪声能量、或者根据所述一个或更多个缩混声道中的至少一个的信号能量或噪声能量来确定阈值,以及处理单元120,用于根据所述阈值从所述一个或更多个缩混声道产生所述一个或更多个音频输出声道。2.根据权利要求1所述的解码器,其中,所述阈值确定器110被配置成根据所述两个或更多个缩混声道中的每个缩混声道的噪声能量来确定所述阈值。3.根据权利要求2所述的解码器,其中,所述阈值确定器110被配置成根据所述两个或更多个缩混声道中的所有噪声能量的总和来确定所述阈值。4.根据前述权利要求之一所述的解码器,其中,所述阈值确定器110被配置成根据所述两个或更多个音频对象信号中的、具有所述两个或更多个音频对象信号中的最大信号能量的音频对象信号的信号能量来确定所述阈值。5.根据前述权利要求之一所述的解码器,其中,所述阈值确定器110被配置成根据所述两个或更多个缩混声道中的所有噪声能量的总和来确定所述阈值。6.根据前述权利要求之一所述的解码器,其中,所述缩混信号针对多个时间-频率片中的每个时间-频率片来编码所述一个或更多个音频对象信号,其中,所述阈值确定器110被配置成根据所述两个或更多个音频对象信号中的至少一个的信号能量或噪声能量、或者根据所述一个或更多个缩混声道的至少一个的信号能量或噪声能量来确定针对所述多个时间-频率片中的每个时间-频率片的阈值,其中,所述多个时间-频率片中的第一时间-频率片的第一阈值与所述多个时间-频率片中的第二时间-频率片的不同,以及其中,所述处理单元120被配置成针对所述多个时间-频率片中的每个时间-频率片、根据所述时间-频率片的阈值而从所述一个或更多个缩混声道产生所述一个或更多个音频输出声道中的每个音频输出声道的声道值。7.根据前述权利要求之一所述的解码器,其中,所述解码器被配置成根据以下公式确定以分贝为单位的所述阈值TT[dB]=Enoise[dB]-Eref[dB]-Z或者根据以下公式确定所述阈值TT[dB]=Enoise[dB]-Eref[dB],其中,T[dB]表示以分贝为单位的所述阈值,其中,Enoise[dB]表示所述两个或更多个缩混声道中以分贝为单位的所有噪声能量的总和,或者Enoise[dB]表示将所述两个或更多个缩混声道中以分贝为单位的所有噪声能量的总和除以所述两个或更多个缩混声道的数量,其中,Eref[dB]表示以分贝为单位的所述音频对象信号之一的信号能量,以及其中,Z表示作为数值的附加参数。8.根据权利要求1至6之一所述的解码器,其中,所述解码器被配置成根据以下公式确定所述阈值T或者根据以下公式确定所述阈值T其中,T表示所述阈值,其中,Enoise表示所述两个或更多个缩混声道中所有噪声能量的总和,或者Enoise[dB]表示将所述两个或更多个缩混声道中以分贝为单位的所有噪声能量的总和除以所述两个或更多个缩混声道的数量,其中,Eref表示所述音频对象信号之一的信号能量,以及其中,Z表示作为数值的附加参数。9.根据前述权利要求之一所述的设备,其中,所述处理单元120被配置成根据所述一个或更多个音频对象信号的对象协方差矩阵E、根据用于缩混所述两个或更多个音频对象信号以获得所述两个或更多个缩混声道的缩混矩阵D以及根据所述阈值,从所述一个或更多个缩混声道产生所述一个或更多个音频输出声道。10.根据权利要求9所述的设备,其中,所述处理单元120被配置成通过在用于对缩混声道互相关矩阵Q求逆的函数中应用所述阈值,来从所述一个或更多个缩混声道产生所述一个或更多个音频输出声道,其中,Q被定义为Q=DED*,其中,D是用于缩混所述两个或更多个音频对象信号以获得所述两个或更多个缩混声道的所述缩混矩阵,以及其中,E是所述一个或更多个音频对象信号的对象协方差矩阵。11.根据权利要求10所述的设备,其中,所述处理单元120被配置成通过计算所述缩混声道互相关矩阵Q的特征值或者通过计算所述缩混声道互相关矩阵Q的奇异值,来从所述一个或更多个缩混声道产生所述一个或更多个音频输出声道。12.根据权利要求10或11所述的设备,其中,所述处理单元120被配置成通过将所述缩混声道互相关矩阵Q的特征值中的最大特征值与所述阈值相乘以获得相对阈值,来从所述一个或更多个缩混声道产生所述一个或更多个音频输出声道。13.根据权利要求12所述的设备,其中,所述处理单元120被配置成通过产生经修正的矩阵来从所述一个或更多个缩混声道产生所述一个或更多个音频输出声道,其中,所述处理单元120被配置成仅根据所述缩混声道互相关矩阵Q的如下特征向量来产生所述经修正的矩阵:所述特征向量具有所述缩混声道互相关矩阵Q的特征值中的、大于或等于所述经修正的阈值的特征值,其中,所述处理单元120被配置成执行所述经修正的矩阵的矩阵求逆以获得逆矩阵,以及其中,所述处理单元120被配置成在一个或更多个所述缩混声道上应用所述逆矩阵以产生所述一个或更多个音频输出声道。14.一种用于从包括两个或更多个缩混声道的缩混信号产生包括一个或更多个音频输出声道的音频输出信号的方法,其中,所述缩混信号编码两个或更多个音频对象信号,其中,所述解码器包括:根据所述两个或更多个音频对象信号中的至少一个的信号能量或噪声能量、或者根据所述一个或更多个缩混声道中的至少一个的信号能量或噪声能量来确定阈值,以及根据所述阈值从所述一个或更多个缩混声道产生所述一个或更多个音频输出声道。15.一种计算机程序,当所述计算机程序在计算机或信号处理器上被执行时,用于实现根据权利要求14所述的方法。

百度查询: 弗劳恩霍夫应用研究促进协会 用于从缩混信号产生音频输出信号的解码器和方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。