【发明授权】压缩和解压缩高阶高保真度立体声响复制信号表示的方法及装置_杜比国际公司_201710350454.5 

申请/专利权人:杜比国际公司

申请日:2013-05-06

发明/设计人:A.克鲁格;S.科唐;J.贝姆;J-M.巴特克

公开(公告)日:2021-01-12

代理机构:中国贸促会专利商标事务所有限公司

公开(公告)号:CN107180637B

代理人:宿小猛

主分类号:G10L19/008(20130101)

地址:荷兰阿姆斯特丹

分类号:G10L19/008(20130101);H04S3/00(20060101)

优先权:["20120514 EP 12305537.8"]

专利状态码:有效-授权

法律状态:2021.01.12#授权;2017.10.20#实质审查的生效;2017.09.19#公开

摘要:本公开涉及压缩和解压缩高阶高保真度立体声响复制信号表示的方法及装置。高阶高保真度立体声响复制HOA表示在最佳听音位置附近的完整声场,其不依赖于扩音器结构。高空间分辨率需要大量的HOA系数。在本发明中,估计主声音方向,并且将HOA信号表示分解成时域中的主方向信号和相关的方向信息以及HOA域中的环境分量,继之以通过降低它的阶来压缩环境分量。阶降低后的环境分量被变换到空间域,并且与方向信号一起被感知编码。在接收器侧,编码后的方向信号和阶降低后经编码的环境分量被感知地解压缩,被感知地解压缩的环境信号被变换到降低的阶的HOA域表示,继之以阶扩展。从方向信号、对应的方向信息以及原始阶的环境HOA分量重新组成总的HOA表示。

主权项:1.一种用于解压缩高阶高保真度立体声响复制HOA信号表示的方法,所述方法包括:接收编码的方向信号和编码的环境信号;对编码的方向信号和编码的环境信号感知解码以分别产生解码的方向信号和解码的环境信号;将解码的环境信号从空间域转换到环境信号的HOA域表示;以及从环境信号的HOA域表示和解码的方向信号重新组成高阶高保真度立体声响复制HOA信号;其中,该转换包括将逆空间变换应用于解码的环境信号。

全文数据:压缩和解压缩高阶高保真度立体声响复制信号表示的方法及装置[0001]本申请是申请号为201380025029.9、申请日为2013年5月6日、发明名称为“压缩和解压缩高阶高保真度立体声响复制信号表示的方法及装置”的发明专利申请的分案申请。技术领域[0002]本发明涉及一种压缩和解压缩高阶高保真度立体声响复制(HigherOrderAmbisonics信号表示的方法及装置,其中以不同的方式处理方向和环境ambient分量。背景技术[0003]高阶高保真度立体声响复制HOA提供了以下优点:捕获三维空间中的特定位置附近的完整声场,该位置被称为“最佳听音位置(sweetspot”。与像立体声或环绕声这样的基于信道的技术相反,这种HOA表示不依赖于具体的扩音器结构。但是,这种灵活性以在特定扩音器结构上回放该HOA表示所需的解码处理为代价。[0004]HOA基于使用截断的球谐函数SH展开式的在期望的听者位置附近的位置X的单独的角形波数量k的气压的复数幅度的描述,其中,在不失一般性的情况下,可以将期望的听者位置假设为球坐标系统的原点。这种表示的空间分辨率随着该展开式的增长的最大阶N提高。不幸的是,展开式系数的数量0随阶N而平方地增长,亦即0=N+12。例如,使用阶N=4的典型的HOA表示需要0=25个HOA系数。给出期望的采样率fs和每个样本的比特数量Nb,传送HOA信号表示的总的比特率按照0·fs·Nb来确定,并且在针对每个样本采用Nb=16个比特,采样率为fs=48kHz的情况下的阶N=4的HOA信号表示的传输导致19.2MBitss的比特率。因此,压缩HOA信号表示是非常值得做的。[0005]关于现存空间音频压缩方法的概述可以在专利申请EP10306472.1中或者在I.ElfitriNB.GiineKA.M.Kondoz|3tl''MultichannelAudioCodingBasedonAnalysisbySynthesis”(ProceedingsoftheIEEE,第99卷,第4期,657-670页,2011年4月)中找到。[0006]下面的技术与本发明更相关。[0007]可以如V.Pulkki在“SpatialSoundReproductionwithDirectionalAudioCoding”(JournalofAudioEng.Society,第556卷,503-516页,2007年)中所述的使用方向音频编码DirAC来压缩B格式信号等效于一阶高保真度立体声响复制表示)。在对电子会议应用提出的一个版本中,将B格式信号编码成单个全向信号以及以单一方向形式的边信息和针对每个频带的扩散参数。然而,作为结果的数据率的显著降低以在再现时得到的较小的信号质量为代价。另外,DirAC受限于一阶高保真度立体声响复制表示的压缩,其受到非常低的空间分辨率的影响。[0008]已知的用于压缩具有N1的HOA表示的方法相当少。其中之一利用感知高级音频编码AAC编码解码器对单独的HOA系数序列进行直接编码,参见E·Hellerud、I·Burnett、A.SolvangNU.PeterSvensson的“EncodingHigherOrderAmbisonicswithAAC^^124届AES大会,阿姆斯特丹,2008年)。然而,该方法的固有问题是永远不会被听到的信号的感知编码。通常通过HOA系数序列的加权和来获得重构的回放信号。这是为什么当在特定的扩音器结构上呈现解压缩后的HOA表示时未屏蔽感知编码噪声的概率很高的原因。以更技术性的术语,感知编码噪声未屏蔽的主要问题是单独的HOA系数序列之间的高度的互相关性。因为在单独的HOA系数序列中的编码后的噪声信号通常彼此不相关,所以可能出现感知编码噪声的结构重叠,同时与噪声无关的HOA系数序列在重叠处被消去。另一个问题是所提到的互相关性导致感知编码器的效率降低。[0009]为了将这些影响的程度最小化,在EP10306472.1中提出在感知编码之前将HOA表示变换为空间域中的等效表示。空间域信号对应于常规的方向信号,并且如果扩音器被置于与对空间域变换假设的那些方向完全相同的方向上,则将对应于扩音器信号。[0010]到空间域的变换降低了单独的空间域信号之间的互相关性。然而,并未彻底消除互相关性。关于相对较高的互相关性的示例是其方向落入空间域信号所覆盖的相邻方向之间的方向信号。[0011]EP10306472.1和上述的Hellerud等人的论文的另一个不足是经感知编码的信号的数量是N+12,其中,N是HOA表示的阶。因此,压缩后的HOA表示的数据率随高保真度立体声响复制阶而平方地增长。[0012]本发明的压缩处理将HOA声场表不分解为方向分量和环境分量。具体对于计算方向声场分量,在下面描述了一种新的处理,用于估计若干主声音方向。[0013]关于基于高保真度立体声响复制的方向估计的现存方法,上述的Pulkki的论文描述了一种结合DirAC编码的方法,用于基于B格式声场表示来估计方向。方向根据平均强度矢量获得,其指向声场能量流动的方向。在D.Levin、S.Gannot、E.A.PHabets的uDirection-〇f-ArrivalEstimationusingAcousticVectorSensorsinthePresenceofNoise”(IEEEProc.OftheICASSP,105-108页,2011年)中提出了一种基于B格式的替代。通过搜索对引入到那个方向的波束形成器输出信号提供最大能量的那个方向,迭代地进行方向估计。[0014]然而,对于方向估计,两种方法都受约束于B格式,其受到相对较低的空间分辨率的影响。另一不足之处是该估计被限制于仅仅单个主方向。[0015]HOA表示提供了改善的空间分辨率,从而允许对若干主方向的改善的估计。现存的基于HOA声场表示对若干方向进行估计的方法相当稀少。在N.Epain、C.Jin、A.vanSchaik的“TheApplicationofCompressiveSamplingtotheAnalysisandSynthesisofSpatialSoundFields”(127thConventionoftheAudioEng.Soc·,纽约,2009年)中以及在A·Wabnitz、Ν·Epain、A·vanSchaik、CJin的“TimeDomainReconstructionofSpatialSoundFieldsUsingCompressedSensing”(IEEEProc.oftheICASSP,465-468页,2011年)中提出了一种基于压缩传感的方法。主要想法是假设声场是空间稀疏的,亦即由仅仅少量的方向信号构成。在球上分配大量的测试方向之后,采用最优化算法以便发现尽可能少的测试方向以及对应的方向信号,使得它们被给出的HOA表示良好地描述。与实际上由给出的HOA表示提供的空间分辨率相比,该方法提供了一种改善的空间分辨率,因为其避开了从给出的HOA表示的有限阶导致的空间离差。然而,该算法的性能高度依赖于是否满足稀疏性假设。具体地,如果声场包括任何的较小的附加环境分量,或者如果HOA表示受到将在从多信道记录计算时出现的噪声的影响,则该方法将失败。[0016]另一个更直观的方法是将给出的HOA表示变换成在B.RafaeIy的“Plane-wavedecompositionofthesoundfieldonaspherebysphericalconvolution”J.Acoust.Soc.Am.,第4卷,第116号,2149-2157页,2004年10月)中所述的空间域,然后搜索方向功率中的最大值。该方法的不足之处是环境分量的存在将导致方向功率分布的模糊,并且与不存在任何环境分量相比,将导致方向功率的最大值的移位。发明内容[0017]本发明要解决的问题是提供一种HOA信号的压缩,由此仍然保持HOA信号表示的高空间分辨率。通过在权利要求1和2中所述的方法解决该问题。在权利要求3和4中公开了利用这些方法的装置。[0018]本发明解决声场的高阶高保真度立体声响复制HOA表示的压缩。在本申请中,术语“Η0Α”是指所述高阶高保真度立体声响复制表示以及对应地编码或表示后的音频信号。估计主声音方向,并且将HOA信号表示分解成时域中的若干主方向信号和相关的方向信息以及HOA域中的环境分量,继之以通过降低其阶来压缩环境分量。在该分解之后,将降低了阶的环境HOA分量变换到空间域,并且与方向信号一起进行感知编码。[0019]在接收器或解码器侧,感知地解压缩编码后的方向信号和阶降低后经编码的环境分量。将经感知解压缩的环境信号变换成降低了阶的HOA域表示,继之以阶扩展。从方向信号和对应的方向信息以及从原始阶的环境HOA分量重新组成总的HOA表示。[0020]有利地,环境声场分量可以通过具有低于原始的阶的HOA表示以足够的准确度来表示,并且主方向信号的提取确保了在压缩和解压缩之后仍然获得高空间分辨率。[0021]原则上,本发明的方法适于压缩高阶高保真度立体声响复制HOA信号表示,所述方法包括以下步骤:[0022]-估计主方向,其中,所述主方向估计取决于能量上的主HOA分量的方向功率分布;[0023]-将HOA信号表不分解或解码成时域中的若干主方向信号和相关的方向信息以及HOA域中的残差环境分量,其中,所述残差环境分量表不所述HOA信号表不和所述主方向信号的表不之间的差异;[0024]-通过与所述残差环境分量的原始阶相比降低所述残差环境分量的阶来压缩所述残差环境分量;[0025]-将降低了阶的所述残差环境HOA分量变换到空间域;[0026]-对所述主方向信号和所述变换后的残差环境HOA分量进行感知编码。[0027]原则上,本发明的方法适于对通过以下步骤进行了压缩的高阶高保真度立体声响复制HOA信号表示进行解压缩:[0028]-估计主方向,其中,所述主方向估计取决于能量上的主HOA分量的方向功率分布;[0029]-将HOA信号表不分解或解码成时域中的若干主方向信号和相关的方向信息以及HOA域中的残差环境分量,其中,所述残差环境分量表不所述HOA信号表不和所述主方向信号的表不之间的差异;[0030]-通过与所述残差环境分量的原始阶相比降低所述残差环境分量的阶来压缩所述残差环境分量;[0031]-将降低了阶的所述残差环境分量变换到空间域;[0032]-对所述主方向信号和所述变换后的残差环境HOA分量进行感知编码;[0033]所述方法包括以下步骤:[0034]-对所述经感知编码的主方向信号和所述经感知编码的变换后的残差环境HOA分量进行感知解码;[0035]-对经感知解码的变换后的残差环境HOA分量进行逆变换以便取得HOA域表示;[0036]-对经逆变换的残差环境HOA分量进行阶扩展以便建立原始阶的环境HOA分量;[0037]-组成所述经感知解码的主方向信号、所述方向信息以及所述经原始阶扩展的环境HOA分量以便取得HOA信号表不。[0038]原则上,本发明的装置适于压缩高阶高保真度立体声响复制HOA信号表示,所述装置包括:[0039]-适于估计主方向的部件,其中,所述主方向估计取决于能量上的主HOA分量的方向功率分布;[0040]-适于将HOA信号表不分解或解码成时域中的若干主方向信号和相关的方向信息以及HOA域中的残差环境分量的部件,其中,所述残差环境分量表不所述HOA信号表不和所述主方向信号的表示之间的差异;[0041]-适于通过与所述残差环境分量的原始阶相比降低所述残差环境分量的阶来压缩所述残差环境分量的部件;[0042]-适于将降低了阶的所述残差环境分量变换到空间域的部件;[0043]-适于对所述主方向信号和所述变换后的残差环境HOA分量进行感知编码的部件。[0044]原则上,本发明的装置适于对通过以下步骤进行了压缩的高阶高保真度立体声响复制HOA信号表示进行解压缩:[0045]-估计主方向,其中,所述主方向估计取决于能量上的主HOA分量的方向功率分布;[0046]-将HOA信号表不分解或解码成时域中的若干主方向信号和相关的方向信息以及HOA域中的残差环境分量,其中,所述残差环境分量表不所述HOA信号表不和所述主方向信号的表不之间的差异;[0047]-通过与所述残差环境分量的原始阶相比降低所述残差环境分量的阶来压缩所述残差环境分量;[0048]-将降低了阶的所述残差环境分量变换到空间域;[0049]-对所述主方向信号和所述变换后的残差环境HOA分量进行感知编码;[0050]所述装置包括:[0051]-适于对经感知编码的主方向信号和经感知编码的变换后的残差环境HOA分量进行感知解码的部件;[0052]-适于对经感知解码的变换后的残差环境HOA分量进行逆变换以便取得HOA域表示的部件;[0053]-适于对所述经逆变换的残差环境HOA分量进行阶扩展以便建立原始阶的环境HOA分量的部件;[0054]-适于组成所述经感知解码的主方向信号、所述方向信息以及所述经原始阶扩展的环境HOA分量以便取得HOA信号表不的部件。[0055]在相应的从属权利要求中公开了本发明的有利的另外的实施例。附图说明[0056]参照附图说明本发明的示例性实施例,附图中:[0057]图1是关于不同的高保真度立体声响复制阶N和角Θe[0,π]的规一化离差函数VNΘ;[0058]图2是根据本发明的压缩处理的框图;[0059]图3是根据本发明的解压缩处理的框图。具体实施方式[0060]高保真度立体声响复制信号使用球谐函数SH展开式描述无源区域内的声场。这种描述的灵活性可以归因于声压的时间和空间行为基本上由波动方程确定这一物理特性。[0061]波动方程和球谐函数展开式[0062]为了对高保真度立体声响复制进行更详细的描述,下面假设球坐标系统,其中,通过半径r0亦即,到坐标原点的距离)、从极轴Z测量的倾斜角0e[0,JT]以及从X轴在x=y平面中测量的方位角Φe[0,2π[来表示空间X=r,0,φτ中的点。在该球坐标系统中,关于连通的无源区域内的声压Pt,x其中,t表示时间)的波动方程由EarlG.Williams的教科书“FourierAcoustics”(AppliedMathematicalSciences第93卷,AcademicPress,1999年给出:[0063]I[0064]其中,^指示声音的速度。因此,关于时间的声压的傅里叶变换为[0065][0066]其中,i表示虚数单位,根据Williams的教科书可以展开成SH的级数:[0067]4[0068]应当注意到,该展开式对于连通的无源区域其对应于序列的收敛的区域)内的所有点X均有效。[0069]在等式⑷中,k表示由下式定义的角形波数量:[0070]$[0071]并且指示SH展开式系数,其只取决于乘积kr。[0072]另外,:是阶η以及次数degreem的SH函数:[0073].,,[0074]其中表示相关联的勒让德函数,并且(·)!表示阶乘。[0075]关于非负次数指数m的相关联的勒让德函数通过勒让德多项式PnX定义,如下:[0076][0077]对于负次数指数,亦即mN。51[0160]如果该条件不满足,则近似(50受到空间混叠误差的影响,参见B.Rafaely的“SpatialAliasinginSphericalMicrophoneArrays”(IEEETransactionsonSignalProcessing,卷55,第3期,第1003-1010页,2007年3月)。[0161]第二必要条件需要采样点Ωj和对应的加权满足在“AnalysisandDesign.论文中给了的对应条件:[0162]吋于m,!]SN52[0163]条件51和52联合起来对于精确采样就足够了。[0164]采样条件52由一组线性等式组成,可以使用单个矩阵等式简洁地用公式表示为[0165]Ψ〇ΨΗ=Ι53[0166]其中,Ψ表示由下式定义的模式矩阵[0167]54[0168]并且G表示在其对角线上具有加权的矩阵,亦即[0169]G:=diaggi,,gj55[0170]从等式53可以看出,满足等式52的必要条件是采样点的数量J满足J0。将在J个采样点处的时域幅度密度的值聚集到如下矢量中[0171]wt:=Dt,Ωi,...,Dt,Ωj56[0172]并且通过下式定义缩放后的时域高保真度立体声响复制系数的矢量[0173]5?[0174]两个矢量通过SH函数展开式29相关。这种关系提供了下面的线性等式系统:[0175]wt=ΨΗοt58[0176]使用所引入的矢量记号,从时域幅度密度函数样本的值计算缩放后的时域高保真度立体声响复制系数可以写作:[0177]c⑴WGw⑴(59[0178]给出固定的高保真度立体声响复制阶N,经常无法实现通过计算J多0数量的采样点Ω」和对应的加权使得满足采样条件等式52。然而,如果选取采样点使得良好地近似采样条件,则模式矩阵Ψ的秩为〇,并且其条件数低。在该情况下,存在模式矩阵Ψ的伪逆[0179]ψ+.=ψψΗ!ψψ+60[0180]并且通过下式给出从时域幅度密度函数样本的矢量到缩放后的时域高保真度立体声响复制系数矢量ct的合理近似[0181]ct^W+w⑴(61[0182]如果J=O并且模式矩阵的秩为0,则其伪逆与其逆一致,因为[0183]62[0184]如果额外满足采样条件等式52,则满足[0185]63[0186]并且两个近似59和61是等价的并且是精确的。[0187]可以将矢量wt解释为空间时域信号的矢量。从HOA域到空间域的变换可以例如通过使用等式58进行。这种变换在本申请中被称为“球谐函数变换”(SHT并且在降低了阶的环境HOA分量变换到空间域时使用。隐含地假设SHT的空间采样点Ω」近似地满足在并且J=O情况下的等式52中的采样条件。[0188]在这些假设下,SHT矩阵满足,在SHT的绝对缩放不重要的情况下,则可以忽略常量fό[0189]压缩[0190]本发明涉及对给出的HOA信号表示的压缩。如上所述,将HOA表示分解成时域中的预定义数量的主方向信号以及HOA域中的环境分量,继之以通过降低环境分量的阶来压缩环境分量的HOA表示。该操作利用如下被收听测试支持的假设:环境声场分量可以通过具有低阶的HOA表示以足够的精确度来表示。对主方向信号的提取确保了在压缩和对应的解压缩之后保持高空间分辨率。[0191]在分解之后,降低了阶的环境HOA分量被变换到空间域,并且与如在专利申请EP10306472.1的Exemplaryembodiments部分中所述那样与方向信号一起被感知地编码。[0192]压缩处理包括在图2中图示的两个相继步骤。在下面的压缩的细节部分描述单独信号的确切定义。[0193]在图2a中示出的第一步骤或阶段中,在主方向估计器22中估计主方向,并且进行将高保真度立体声响复制信号C1分解成方向分量以及残差或环境分量,其中1表不帧索弓丨。在方向信号计算步骤或阶段23中计算方向分量,由此高保真度立体声响复制表示被转换到由具有对应的方向的D个常规方向信号XI的集合表示的时域信号。在环境HOA分量计算步骤或阶段24中计算残差的环境分量,并且表示为HOA域系数CaI。[0194]在图2b中示出的第二步骤中,对方向信号X1和环境HOA分量Ca1执行感知编码,如下:[0195]-可以在感知编码器27中使用任何已知的感知压缩技术单独地压缩常规时域方向信号X⑴。[0196]-在两个子步骤或阶段中执行环境HOA域分量CaI的压缩。第一子步骤或阶段25执行将原始高保真度立体声响复制阶N降低至Ν_,例如Ν_=2,得到环境HOA分量Ca,RED⑴。此处,利用如下假设:可以通过具有低阶的HOA足够精确地表示环境声场分量。第二子步骤或阶段26基于在专利申请EP10306472.1中所述的压缩。通过应用球谐函数变换,将在子步骤阶段25计算的环境声场分量的Ored:=Nred+12个HOA信号Ca,red1变换成空间域中的Ored个等效信号Wa,_1,得到可以输入给一组并行的感知编码解码器27的常规时域信号。可以应用任何已知的感知编码或压缩技术。输出编码后的方向信号和阶降低了的编码后的空间域信号,并且它们可以被传送或存储。[0197]有利地,可以在感知编码器27中联合地执行对所有时域信号X1和WA,red1的感知压缩,以便通过利用可能剩余的信道间相关性提高总体的编码效率。[0198]解压缩[0199]在图3中图示了对收到的或重放的信号的解压缩处理。如同压缩处理,其包括两个相继步骤。[0200]在图3a中示出的第一步骤或阶段中,在感知解码31中执行对编码后的方向信号χω以及阶降低了的编码后的空间域信号的感知解码或者解压缩,其中,χω是表示分量并且表示环境HOA分量。在逆球谐函数变换器32中经由逆球谐函数变换将经感知解码或解压缩的空间域信,丨变换成阶为Nred的HOA域表示此后,在阶扩展步骤或阶段33中,通过阶扩展从估计阶为N的适当的HOA表示[0201]在图3b示出的第二步骤或阶段中,在HOA信号组装器34中从方向信号和对应的方向信肩以及从原始阶的环境HOA分1重新组成总的HOA表矛[0202]可达到的数据率降低[0203]本发明所解决的问题是与现有的用于HOA表示的压缩方法相比显著地降低数据率。下面论述与非压缩的HOA表示相比的可达到的压缩率。压缩率得自传送阶为N的非压缩的HOA信号C1所需的数据率与传送由D个经感知编码的方向信号和对应的方向δΜΜ〇以及Nred个表不环境HOA分量的经感知编码的空间域信号Wa,red1组成的压缩后的信号表不所需的数据率的比较。[0204]为了传送非压缩的HOA信号CI,需要0·fs·Nb的数据率。相反,传送D个经感知编码的方向信号X1需要D·fb,COD的数据率,其中,fb,COD表示经感知编码的信号的比特率。类似地,传送Nred个经感知编码的空间域信号Wa,red⑴信号需要Ored·fb,™的比特率。假设基于与采样率fs相比低得多的速率计算方向,亦即假设它们对于由B个样本组成的信号帧的持续时间是固定的,例如对于fs=48kHz的采样率,B=1200,并且对于压缩后的HOA信号的总的数据率的计算,可以忽略对应的数据率份额。[0205]因此,传送压缩后的表不需要大约D+Ored·fb,ο®的数据率。因此,压缩率KcimprS[0206]g4[0207]例如,使用降低的HOA阶Nred=2并且的比特率将采用采样率fs=48kHz并且对于每个样本Nb=16比特的阶N=4的HOA表示压缩成具有D=3个主方向的表示将导致rcoMPR〜25的压缩率。传送压缩后的表示需要大约的数据率。[0208]降低的出现编码噪声未屏蔽的概率[0209]如在背景技术中所述,在专利申请EP10306472.1中所述的空间域信号的感知压缩受到信号之间的剩余的相互相关性的影响,其可能导致未屏蔽感知编码噪声。根据本发明,主方向ί目号在被感知编码之前,首先从HOA声场表不提取将其提取。这意味着,在组成HOA表不时,在感知解码之后,编码噪声具有与方向信号完全相同的空间方向性。具体地,编码噪声以及方向信号对任何任意方向的影响通过在具有有限阶的空间分辨率部分中解释的空间离差函数确定性地描述。换言之,在任何时刻,表示编码噪声的HOA系数矢量恰好是表示方向信号的HOA系数矢量的倍数。因此,噪声HOA系数的任意加权的和将不会导致对感知编码噪声的任何未屏蔽。[0210]另外,正如在EP10306472.1中所提出那样地处理降低了阶的环境分量,但是因为针对每个定义,环境分量的空间域信号在彼此之间具有相当低的相关性,所以感知噪声未屏蔽的概率很低。[0211]改进的方向估计[0212]本发明的方向估计取决于能量上的主HOA分量的方向功率分布。从HOA表示的秩降低了的相关性矩阵(其通过对HOA表示的相关性矩阵的特征值分解得到)计算方向功率分布。与在上述的“Plane-wavedecomposition.论文中使用的方向估计相比,提供了更准确这一优点,因为关注于能量上的主HOA分量而不是对方向估计使用完整的HOA表示降低了方向功率分布的空间模糊。[0213]与在上述的“TheApplicationofCompressiveSamplingtotheAnalysisandSynthesisofSpatialSoundFields”和“TimeDomainReconstructionofSpatialSoundFieldsUsingCompressedSensing”论文中提出的方向估计相比,提供了更加健壮这一优点。原因是将HOA表示分解成方向分量和环境分量几乎永远不会完美的实现,使得在方向分量中保留少量环境分量。然后,像在这两个论文中那样的压缩采样方法由于它们对环境信号的存在的高度敏感性而无法提供合理的方向估计。[0214]有利地,本发明的方向估计不会受到该问题的影响。[0215]HOA表示分解的替代应用[0216]根据在上述的Pulkki的论文“SpatialSoundReproductionwithDiretionalAudioCoding”中所提出的,所述的将HOA表示分解成带有相关方向信息的若干方向信号以及在HOA域中的环境分量可以用于HOA表示的信号自适应类DirAC呈现。[0217]可以不同地呈现每个HOA分量,因为两个分量的物理特征是不同的。例如,可以使用如基于矢量的幅度摇摄(VBAP这样的信号摇摄技术对扩音器呈现方向信号,参见V·Pulkki的“VirtualSoundSourcePositioningUsingVectorBaseAmplitudePanning”(JournalofAudioEng.Society,卷45,第6期,第456-466页,1997年)。可以使得已知的标准HOA呈现技术呈现环境HOA分量。[0218]这样的呈现不限于阶为“Γ的高保真度立体声响复制表示,并且因此可以被视为到阶N1的HOA表示的类DirAC呈现的扩展。[0219]对来自HOA信号表示的若干方向的估计可以用于任何相关类型的声场分析。[0220]下面的部分更详细地描述信号处理步骤。[0221]压缩[0222]输入格式的定义[0223]作为输入,假设在等式26中定义的缩放后的时域HOA系数进行采样。将矢量cj定义为由属于采样时间t=jTs,j€忍的所有系数组成,其根据:[0224][0225]成帧[0226]在成帧步骤或阶段21中,对缩放后的HOA系数的进入的矢量cj进行成帧成为长度为B的非重叠的帧,其根据:[0227]66[0228]假设fs=48kHz的采样率,对应于25ms的帧持续时间,适当的帧长度为B=1200个样本。[0229]主方向的估计[0230]对于主方向的估计,计算下面的相关性矩阵_67[0232]在当前帧1和L-I个先前帧上的求和指出方向分析基于具有L·B个样本的帧的长重叠组,亦即,对于每个当前帧,考虑邻近帧的内容。这有助于方向分析的稳定性,理由有两个:更长的帧导致更大数量的观测,方向估计由于重叠帧而平滑。[0233]假设fs=48kHz并且B=1200,对应于IOOms的总体帧持续时间,L的合理值是4。[0234]接下来,根据下式确定相关性矩阵B⑴的特征值分解[0235]BI=VIAIVtI68[0236]其中,矩阵VI由特征矢量Vi⑴,彡0组成,如下[0237]69[0238]并且Λ⑴是具有对应的特征值\1⑴,l1⑴之间的角,属于方向信号的功率根据卩降。因此,对于另外的主方向的搜索,排除在具有Θq,:彡ΘΜΙΝ的Sltjl的方向领域中的所有方向Ωq,这是合理的。可以将距离ΘΜΙΝ选取为VNX对于N彡4,其近似地通过f给出)的第一个零。然后,将第二主方向设置为在剩余的方向上具有最大功率的那个,其中:以类似的方式确定剩余的主方向。[0262]可以通过以下方式确定主方向的数量DG丨考虑分配给单独的主方向Aia的功率并且搜索比值超过所期望的方向对环境率比DARmin的值的情况。这意味着,0〇满足[0263]8.1[0264]关于计算所有主方向的总体处理可以按照下面执行:[0265][0266]接下来,对在当前帧中得到的方向丨和先前帧中的方向进行平滑,得到平滑的方彳亥操作可以分成两个相继部分:[0267]a对先前帧中的平滑的方向分配当前的主方向β确定分配函数使得分配的方向之间的角的和[0268]82[0269]最小化。可以使用著名的匈牙利算法(参见H.W.Kuhn的“TheHungarianmethodfortheassignmentproblem”,NavaIresearchlogisticsquarterly2,第1-2期,第83-97页,1955年)解决这样的分配问题。将当前方P和先前帧中的不活动的方向(关于术语“不活动的方向”的解释,参见下面之间的角设置为2ΘΜΙΝ。该操作的效果是,试图将比2ΘΜΙΝ更接近于先前活动的方向的当前方向丨分配给它们。如果距离超过2ΘΜΙΝ,则假设对应的当前方向属于新的信号,这意味着其优选分配给先前不活动的方向注释:当允许全体压缩算法的更大等待时间时,相继方向估计的分配可以更健壮的进行。例如,可以更好地识别突然的方向改变,而不会将它们与从估计误差得到的离群值混合在一起。[0270]b使用步骤(a中的分配计算平滑的方自平滑是基于球的几何形状而不是欧几里得几何形状。对于当前的主方向中的每个,沿着由方向知i指定的跨越球上的两个点的大圆的劣弧进行平滑。显然,通过用平滑因子αΩ计算经指数加权的移动平均数,独立地平滑方位角和倾斜角。对于倾斜角,这得到下面的平滑操作:[0271]83[0272]对于方位角,必须修改平滑以在从3ΐ-εε〇到-π的平移时以及在相反方向的平移时得到正确的平滑。可以对此进行考虑,通过首先将以2π为模的差分角计算为[0280]$ί勺情况下,存在未取得分配的当前主方向的先前帧中的方向对应的索引集合被表示为[0281]88[0282]从上一帧复制相应的方向,亦即,对于d£·ΜΝΛ⑴[0283]89[0284]对预定数量Lia的帧未分配的方向被称为是不活动的。[0285]之后,计算通过MactCO表示的活动的方向的索引集合。其基数表示为[0286]然后,将所有平滑后的方向连接成单个方向矩阵,作为[0287]90[0288]方向信号的计算[0289]方向信号的计算基于模式匹配。具体地,对于那些HOA表示得到给出的HOA信号的最佳近似的方向信号进行搜索。因为相继帧之间的方向的改变会导致方向信号的不连续性,所以可以计算重叠帧的方向信号的估计,继之以使用适当的窗口函数平滑相继的重叠帧的结果。然而,该平滑引入单个帧的等待时间。[0290]下面解释关于方向信号的详细估计:[0291]首先,根据下式计算基于平滑后的活动的方向的模式矩阵[0292][0295]其中,dACTd,1彡衫Dact⑴表示活动的方向的索引。[0296]接下来,计算包含关于第1-1个和第1个帧的所有方向信号的非平滑的估计的矩阵Xinst⑴:[0300]这在两个步骤中完成。在第一步骤中,将对应于不活动的方向的行中的方向信号样本设置成零,亦即[0301]95[0302]在第二步骤中,通过首先根据下式将对应于活动的方向的方向信号样本安排在矩阵中来得到它们[0304]然后计算该矩阵,以便将误差的欧几里得范数[0305]97[0306]最小化。其解通过下式给出[0307]98[0308]通过适当的窗口函数wj对方向信号xiNST,dI,jKcKD的估计进行窗口处理:[0303]96[0309]xiNST,wiN,dI,j:=xiNST,dI,j·wj,KjNRED的HOA系数虎成阶降低:[0330][0331]环境HOA分量的球谐函数变换[0332]通过降低了阶的环境HOA分量Ca,RED⑴与模式矩阵的逆的相乘执行球谐函数变换[0336]基于Ored是均匀分布的方向QA,d[0337][0338]解压缩[0339]逆球谐函数变换[0340]经由逆球谐函数变换通过下式将经感知解压缩的空间域信号变换成阶为Nred的HOA域表示fiA,RED⑴_1]112[0342]阶扩展[0343]根据下式通过附加零将HOA表示έΑ.ΚΕβ〇的高保真度立体声响复制阶扩展成N[0344]r113[0345]其中,Omxn表示具有m行和η列的零矩阵。[0346]HOA系数组成[0347]最终的解压缩后的HOA系数根据下式由方向和环境HOA分量相加组成[0348]114[0349]在该阶段,再次引入单个帧的等待时间以允许基于空间平滑计算方向HOA分量。由此,避免了在声场的方向分量中由相继帧之间的方向改变导致的可能的不期望的不连续性。[0350]为了计算平滑后的方向HOA分量,将包含所有单独方向信号的估计的两个相继帧连接成单个长帧,如下[0351]HS[0352]在该长帧中包含的每个单独信号选段乘以例如等式(100的窗口函数。当按照下式通过长帧Xiwst.④的分量表不该长帧时[0353]116[0354]可以将窗口处理操作用公式表示为计算经窗口处理的信息选段,如下[0355][0356]最后,通过将所有经窗口处理的方向信号选段编码成适当的方向并且以重叠的方式将它们重叠,得到总的方向HOA分量Cdir1-1:[0357][0358]方向搜索算法的解释[0359]下面,解释在主方向估计部分中所述的方向搜索处理之后的动机。其基于首先定义的一些假设。[0360]假设[0361]HOA系数矢量cj通常通过下式与时域幅度密度函数dj,Ω相关[0362]119[0363]假设HOA系数矢量cj符合以下模型:[0364][0365]该模型表明,一方面,HOA系数矢量cj通过来自第1个帧的方向%〖的I个主方向源信号^⑶(Ki彡I创建。具体地,假设对于单个帧的持续时间,方向是固定的。假设主源信号的数量I明显地小于HOA系数的总数量0。另外,假设帧长度B明显地大于0。另一方面,矢量Cj由残差分量CAj组成,可以将其视为表示理想的各向同性环境声场。[0366]假设单独的HOA系数矢量分量具有以下性质:[0367]•假设主源信号是零平均值,亦即[0368]|21[0369]并且假设主源信号彼此无关,亦即[0370]122[0371]其弓表示第1个帧的第i个信号的平均功率。[0372]•假设主源信号与HOA系数矢量的环境分量无关,亦即[0373]123[0374]•假设环境HOA分量矢量是零平均值,并且假设其具有协方差矩阵[0375]124[0376]•每个帧1的方向对环境功率比DAR⑴在此处通过下式定义[0377],125.[0378]假设其大于预定义的期望值DARmin,亦即[0379]DAR⑴彡DARmin126[0380]方向搜索的解释[0381]为了进行解释,考虑以下情况:仅基于第1个帧的样本而不考虑L-I个先前帧的样本,计算相关性矩阵BI参见等式67。该操作对应于设置L=l。因此,相关性矩阵可以表示为[0382][0383]通过将等式(120中的模型假设替换到等式(128中,并且通过使用等式(122和123以及等式124中的定义,可以将相关性矩阵B1近似为129[0384][0385]根据等式(131可以看出,B1近似地由对方向和环境HOA分量有贡献的两个附加分量组成。其?〖秩近似%说是供方向HOA分量的近似,亦即[0386]132[0387]其根据关于方向对环境功率比的等式126得出。[0388]然而,应当强调的是,Σα1的一部分将不可避免地漏到B3Z中,因为Σα1—般具有完整的秩,因此矩阵的歹I跨过的子空间彼此不正交。通过等式132,用于主方向搜索的等式77中的矢量〇2⑴可以表示为[0389][0390]在等式135中,使用在等式47中示出的球谐函数的以下属性:[0391]STQqSQq〇=vnZQq,Qq〇137[0392]等式(136示出,〇2⑴的#〇个分量是来自测试方向ΩqI彡c^Q的信号的功率的近似。

权利要求:1.一种用于解压缩高阶高保真度立体声响复制HOA信号表示的方法,所述方法包括:接收编码的方向信号和编码的环境信号;对编码的方向信号和编码的环境信号感知解码以分别产生解码的方向信号和解码的环境信号;将解码的环境信号从空间域转换到环境信号的HOA域表示;以及从环境信号的HOA域表示和解码的方向信号重新组成高阶高保真度立体声响复制HOA信号;其中,该转换包括将逆空间变换应用于解码的环境信号。2.根据权利要求1所述的方法,其中,高阶高保真度立体声响复制HOA信号表示具有大于1的阶次。3.根据权利要求1所述的方法,其中,解码的环境信号的阶次小于高阶高保真度立体声响复制HOA信号表示的阶次。4.根据权利要求1所述的方法,其中,编码的方向信号和编码的环境信号在比特流中被接收到,并且所述比特流被感知解码到多个传输信道中,在该转换和重新组成之前所述多个传输信道中的每个传输信道被重新分配给方向信号或环境信号。5.—种用于解压缩高阶高保真度立体声响复制HOA信号表示的设备,所述设备包括:输入接口,其接收编码的方向信号和编码的环境信号;音频解码器,其对编码的方向信号和编码的环境信号感知解码以分别产生解码的方向信号和解码的环境信号;逆变换器,其将解码的环境信号从空间域转换到环境信号的HOA域表示;以及合成器,其从环境信号的HOA域表示和解码的方向信号重新组成高阶高保真度立体声响复制HOA信号;其中,该逆变换器进一步配置为通过将逆空间变换应用于解码的环境信号来进行转换。6.根据权利要求5所述的设备,其中,高阶高保真度立体声响复制HOA信号表示具有大于1的阶次。7.根据权利要求5所述的设备,其中,解码的环境信号的阶次小于高阶高保真度立体声响复制HOA信号表示的阶次。8.根据权利要求5所述的设备,其中,编码的方向信号和编码的环境信号在比特流中被接收到,并且所述比特流被感知解码到多个传输信道中,在该转换和重新组成之前所述多个传输信道中的每个传输信道被重新分配给方向信号或环境信号。9.一种用于解压缩高阶高保真度立体声响复制HOA信号表示的方法,所述方法包括:接收编码的方向信号和编码的环境信号;对编码的方向信号和编码的环境信号感知解码以分别产生解码的方向信号和解码的环境信号;将解码的环境信号从空间域转换到环境信号的HOA域表示;从环境信号的HOA域表示和解码的方向信号重新组成高阶高保真度立体声响复制HOA信号;以及平滑化该重新组成的HOA信号。10.—种用于解压缩高阶高保真度立体声响复制(HOA信号表示的设备,所述设备包括:输入接口,其接收编码的方向信号和编码的环境信号;音频解码器,其对编码的方向信号和编码的环境信号感知解码以分别产生解码的方向信号和解码的环境信号;逆变换器,其将解码的环境信号从空间域转换到环境信号的HOA域表示;合成器,其从环境信号的HOA域表示和解码的方向信号重新组成高阶高保真度立体声响复制HOA信号;以及平滑器,其平滑化该重新组成的HOA信号。11.一种非暂时性计算机可读介质,包含指令,所述指令在由处理器执行时使得执行根据权利要求1-4和9中任一项所述的方法。12.—种设备,包括:一个或多个处理器,以及一个或多个存储介质,存储有指令,所述指令在被所述一个或多个处理器执行时使得执行根据权利要求1-4和9中任一项所述的方法。13.—种包括用于执行根据权利要求1-4和9中任一项所述的方法的部件的装置。

百度查询: 杜比国际公司 压缩和解压缩高阶高保真度立体声响复制信号表示的方法及装置