买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】空间相关矩阵估计装置、空间相关矩阵估计方法和记录介质_日本电信电话株式会社_201680069908.5 

申请/专利权人:日本电信电话株式会社

申请日:2016-12-01

公开(公告)日:2021-11-23

公开(公告)号:CN108292508B

主分类号:G10L21/0308(20060101)

分类号:G10L21/0308(20060101);G10L21/0232(20060101)

优先权:["20151202 JP 2015-236158"]

专利状态码:有效-授权

法律状态:2021.11.23#授权;2018.08.10#实质审查的生效;2018.07.17#公开

摘要:根据在目标声源和背景噪声混合存在的状况下在不同位置处收录的观测信号来计算观测特征量矢量,估计与目标声源对应的掩码和与背景噪声对应的掩码,根据观测信号和与目标声源对应的掩码来计算包含背景噪声的目标声源的空间相关矩阵,根据观测信号和与背景噪声对应的掩码来计算背景噪声的空间相关矩阵,并且根据对各个空间相关矩阵以规定的系数加权后的矩阵来估计目标声源的空间相关矩阵。

主权项:1.一种空间相关矩阵估计装置,其根据观测特征量矢量,估计第1掩码以及第2掩码,根据所述第1掩码和所述第2掩码来估计目标声源的空间相关矩阵,其中,该观测特征量矢量是基于与N个所述目标声源对应的N个第1音频信号和与背景噪声对应的第2音频信号混合存在的状况下在分别不同的位置处收录的M个观测信号而计算出的,该第1掩码是每个时间频率点的所述第1音频信号在所述观测信号的特征量中所含比例,该第2掩码是每个时间频率点的所述第2音频信号在所述观测信号的特征量中所含比例,N是1以上的整数,M是2以上的整数,该空间相关矩阵估计装置的特征在于,具有噪声除去部,该噪声除去部根据第1空间相关矩阵和第2空间相关矩阵来估计所述目标声源的空间相关矩阵,该第1空间相关矩阵是以第1系数对基于所述观测信号和所述第1掩码计算出的第1特征量矩阵进行加权而得到的,该第2空间相关矩阵是以第2系数对基于所述观测信号和所述第2掩码计算出的第2特征量矩阵进行加权而得到的。

全文数据:空间相关矩阵估计装置、空间相关矩阵估计方法和空间相关矩阵估计程序技术领域[0001]本发明涉及空间相关矩阵估计装置、空间相关矩阵估计方法和空间相关矩阵估计程序。背景技术[0002]以往,提出了在从目标声源发出的音频信号与基于背景噪声的音频信号混合存在的状况下,根据由多个麦克风收音的观测信号估计仅各目标声源包含于观测信号中的情况下的空间相关矩阵的方法。此外,在估计空间相关矩阵时,有时使用作为各音频信号在被观测的音频信号中所含的比例的掩码。[0003]另外,空间相关矩阵是表示麦克风间的信号的自相关和相互相关的矩阵,例如在估计目标声源的位置以及设计从观测信号中仅取出目标声源的波束成形器时使用。[0004]这里,使用图6,说明现有的空间相关矩阵估计装置。图6是表示现有的空间相关矩阵估计装置的结构的图。如图6所示,首先,时间频率分析部IOa计算从观测信号中提取的每个时间频率点的观测特征量矢量。接着,掩码估计部20a根据观测特征量矢量估计与目标声源和背景噪声对应的掩码。此外,观测特征量矩阵计算部30a将观测特征量矢量与该观测特征量矢量的厄密转置相乘来计算观测特征量矩阵。[0005]并且,目标音特征量矩阵时间平均计算部40a计算通过对观测特征量矩阵乘以与目标声源对应的掩码而得到的作为矩阵的时间平均的平均目标音特征量矩阵。此外,噪声特征量矩阵时间平均计算部50a计算通过对观测特征量矩阵乘以与背景噪声对应的掩码而得到的作为矩阵的时间平均的平均噪声特征量矩阵。最后,目标音特征量噪声除去部60a通过从平均目标音特征量矩阵中减去平均噪声特征量矩阵来估计目标声源的空间相关矩阵。[0006]在先技术文献[0007]非专利文献[0008]非专利文南犬1:MehrezSouden,ShokoAraki,KeisukeKinoshita,TomohiroNakatani,HiroshiSawada,“AmultichannelMMSE-basedframeworkforspeechsourceseparationandnoisereduction,’,IEEETrans.Audio,Speech,andLanguageProcessing,vol·21,no·9,pp·1913-1928,2013·[0009]非专利文献2:OzgurYiImaz,andScottRickard,“B1indseparationofspeechmixtureviatime-frequencymasking,’,IEEETrans.SignalProcessing,vol.52,no.7,pp.1830-1847,2004.[0010]非专利文献3:DangHaiTranVuandReinholdHaeb-Umbach,“Blindspeechseparationemployingdirectionalstatisticsinanexpectationmaximizationframework,”Proc·IEEEInt·Conf.Acoust·,Speech,SignalProcess·ICASSP-2010,pp.241-244,2010.[0011]非专利文献4:TomohiroNakatani,ShokoAraki,TakuyaYoshioka,MarcDelcroix,andMasakiyoFujimoto,“Dominancebasedintegrationofspatialandspectralfeaturesforspeechenhancement,’,IEEETransactionsonAudio,Speech,andLanguageProcessing,vol.21,no.12,pp.2516-2531,Dec.2013.发明内容[0012]发明要解决的课题[0013]然而,现有的空间相关矩阵的估计方法无法从观测信号中正确去除背景噪声的影响,因此存在有时无法精度良好地估计目标声源的空间相关矩阵的问题。[0014]例如,在现有的空间相关矩阵的估计方法中,将从平均目标音特征量矩阵中减去平均噪声特征量矩阵的结果估计作为目标声源的空间相关矩阵,然而这是基于经验而得到的方法,在平均目标音特征量矩阵中包含的噪声的影响的量未必与平均噪声特征量矩阵一致,因此不能保证可消除噪声的影响。因此,在现有的空间相关矩阵的估计方法中,有时无法精度良好地估计目标声源的空间相关矩阵。[0015]用于解决课题的手段[0016]本发明的空间相关矩阵估计装置根据观测特征量矢量,估计第1掩码以及第2掩码,根据所述第1掩码和所述第2掩码来估计所述目标声源的空间相关矩阵,其中,该观测特征量矢量是基于与N个目标声源其中,N是1以上的整数对应的N个第1音频信号和与背景噪声对应的第2音频信号混合存在的状况下在分别不同的位置处收录的M个其中,M是2以上的整数观测信号而计算出的,该第1掩码是每个时间频率点的所述第1音频信号在所述观测信号的特征量中所含比例,该第2掩码是每个时间频率点的所述第2音频信号在所述观测信号的特征量中所含比例,该空间相关矩阵估计装置的特征在于,具有噪声除去部,该噪声除去部根据第1空间相关矩阵和第2空间相关矩阵来估计所述目标声源的空间相关矩阵,该第1空间相关矩阵是以第1系数对基于所述观测信号和所述第1掩码计算出的第1特征量矩阵进行加权而得到的,该第2空间相关矩阵是以第2系数对基于所述观测信号和所述第2掩码计算出的第2特征量矩阵进行加权而得到的。[0017]此外,本发明的空间相关矩阵估计方法根据观测特征量矢量,估计第1掩码以及第2掩码,根据所述第1掩码和所述第2掩码来估计所述目标声源的空间相关矩阵,其中,该观测特征量矢量是基于与N个目标声源其中,N是1以上的整数对应的N个第1音频信号和与背景噪声对应的第2音频信号混合存在的状况下在分别不同的位置处收录的M个其中,M是2以上的整数观测信号而计算出的,该第1掩码是每个时间频率点的所述第1音频信号在所述观测信号的特征量中所含比例,该第2掩码是每个时间频率点的所述第2音频信号在所述观测信号的特征量中所含比例,该空间相关矩阵估计方法的特征在于,包括噪声除去步骤,在该噪声除去步骤中,根据第1空间相关矩阵和第2空间相关矩阵来估计所述目标声源的空间相关矩阵,该第1空间相关矩阵是以第1系数对基于所述观测信号和所述第1掩码计算出的第1特征量矩阵进行加权而得到的,该第2空间相关矩阵是以第2系数对基于所述观测信号和所述第2掩码计算出的第2特征量矩阵进行加权而得到的。[0018]发明效果[0019]根据本发明,能够从观测信号中正确地去除背景噪声的影响,能够精度良好地估计目标声源的空间相关矩阵。附图说明[0020]图1是表示第1实施方式的空间相关矩阵估计装置的结构的一例的图。[0021]图2是表示第1实施方式的空间相关矩阵估计装置的掩码估计部的结构的一例的图。[0022]图3是表示第1实施方式的空间相关矩阵估计装置的处理的一例的图。[0023]图4是表示第1实施方式的空间相关矩阵估计装置的掩码估计处理的一例的图。[0024]图5是表示通过执行程序而实现空间相关矩阵估计装置的计算机的一例的图。[0025]图6是表示现有的空间相关矩阵估计装置的结构的图。具体实施方式[0026]以下,根据附图来详细说明本申请的空间相关矩阵估计装置、空间相关矩阵估计方法和空间相关矩阵估计程序的实施方式。另外,本发明并不限于这些实施方式。[0027][第1实施方式][0028]首先,说明第1实施方式的空间相关矩阵估计装置的结构、处理的流程和效果。另夕卜,在第1实施方式中,在与N个目标声源其中,N是1以上的整数对应的N个第1音频信号和与背景噪声对应的第2音频信号混合存在的状况下在分别不同的位置处收录的M个其中,M是2以上的整数的观测信号被输入给空间相关矩阵估计装置。[0029][第1实施方式的结构][0030]使用图1,说明第1实施方式的结构。图1是表示第1实施方式的空间相关矩阵估计装置的结构的一例的图。如图1所示,空间相关矩阵估计装置1具有时间频率分析部10、掩码估计部20、观测特征量矩阵计算部30、噪声下目标音空间相关矩阵估计部40、噪声空间相关矩阵估计部50和目标音空间相关矩阵噪声除去部60。[0031]首先,说明空间相关矩阵估计装置1的各部的概要。时间频率分析部10根据所输入的观测特征量来计算观测特征量矢量。具体而言,时间频率分析部10对各观测信号ymT应用短时间信号分析,提取每个时间频率点的信号特征量,按照每个时间频率点来计算以信号特征量为分量的作为M维纵矢量的观测特征量矢量Xt,f。[0032]此外,掩码估计部20估计第1掩码φηα、ί·以及第2掩码φνα、ί·,该第1掩码φηt、f是每个时间频率点的第1音频信号在观测信号的特征量中所含比例,该第2掩码φνt、f是每个时间频率点的第2音频信号在观测信号的特征量中所含比例。并且,观测特征量矩阵计算部30根据观测特征量矢量,按照每个时间频率点将观测特征量矢量与该观测特征量矢量的厄密转置相乘而计算观测特征量矩阵Rxxt、f。[0033]噪声下目标音空间相关矩阵估计部40计算以第1系数对基于观测信号和第1掩码而计算出的第1特征量矩阵进行加权而得到的第1空间相关矩阵。具体而言,噪声下目标音空间相关矩阵估计部40对于各个目标声源,将按照每个时间频率点将观测特征量矩阵与第1掩码相乘而得到的矩阵的每个频率的时间平均计算作为第1特征量矩阵R^+v^f,将对第1特征量矩阵乘以第1系数α的结果作为第1空间相关矩阵Rn+Vt、f。[0034]噪声空间相关矩阵估计部50计算以第2系数对基于观测信号和第2掩码计算出的第2特征量矩阵进行加权而得到的第2空间相关矩阵。具体而言,对于背景噪声,将按照每个时间频率点将观测特征量矩阵与第2掩码相乘而得到的矩阵的每个频率的时间平均计算作为第2特征量矩阵Vv^f,将对第2特征量矩阵乘以第2系数β的结果作为第2空间相关矩阵Rvt、f。[0035]作为噪声除去部发挥功能的目标音空间相关矩阵噪声除去部60根据第1空间相关矩阵和第2空间相关矩阵来估计目标声源的空间相关矩阵。具体而言,目标音空间相关矩阵噪声除去部60将从第1空间相关矩阵中减去第2空间相关矩阵的结果作为目标声源的空间相关矩阵Rnt、f。另外,第1系数与第2系数的比率例如等于第1掩码的时间平均值的倒数与第2掩码的时间平均值的倒数的比率。[0036]接着,说明空间相关矩阵估计装置1的各部的详细情况。目标声源具有稀疏性,假定在各时间频率点最多仅存在1个目标声源。此外,假定背景噪声存在于所有的时间频率点。由此,由时间频率分析部10根据所输入的观测特征量应用短时间傅里叶转换等的短时间信号分析而计算出的观测特征量矢量与式⑴和式⑵中的任意一方一致。[0037]【数1】[0038]Xt,f=Snt,,f+Vt,f…(1[0039]【数2】[0040]Xt,f=vt,f···2[0041]另外,式(1和式2的t和f分别是时间和频率的编号,t取1〜T的整数,f取0〜F的整数。这里,式(1表示在该时间频率点仅存在目标声源中的第η个声源的情况,式⑵表示不存在任何目标声源的情况,snt、f和Vt、f将观测特征量矢量分解为目标声源η的分量和与背景噪声对应的分量之和。[0042]掩码估计部20使用已知的掩码估计技术来估计掩码。将掩码估计部20关于第η个目标声源而估计出的掩码作为Φηα、ί·,将关于背景噪声估计出的掩码作为Φνα、ί·。以下,角标η作为表示对应于哪个目标声源的编号,角标V作为表示与噪声对应的记号。[0043]噪声下目标音空间相关矩阵估计部40通过式3来计算与第η个目标声源对应的第1特征量矩阵、即平均目标音特征量矩阵R^+vf。[0044]【数3】[0045][0046]此外,噪声空间相关矩阵估计部50通过式⑷来计算与背景噪声对应的第2特征量矩阵、即平均噪声特征量矩阵R%®。[0047]【数4】[0048][0049]其中,观测特征量矩阵Rxxt、f如式⑸所示表示。另外,式⑸的H表示矩阵的厄密转置。[0050]【数5】[0051]Rxxt,f=xt,fxHt,f…(5[0052]如式⑴和式2所示,背景噪声包含于所有的时间频率点,因此Rn+vf中也必然会包含噪声的影响。Rn+v⑴的角标n+v表示Vmvf中包含目标声源η和噪声的两方的影响。[0053]这里,若仅集中与式⑴对应的时间频率点就能够求出空间相关矩阵,则该空间相关矩阵仅受到目标声源η和背景噪声的影响。另一方面,通过仅集中与式2对应的时间频率点来求出空间相关矩阵,由此能够得到背景噪声的空间相关矩阵。[0054]于是,在现有的空间相关矩阵估计方法中,如式6所示,通过求出分别求得的空间相关矩阵之差,从而求出目标声源的空间相关矩阵。[0055]【数6】[0056]R7nCf=R7i+vD-R^Cf···6[0057]另一方面,在本发明的第1实施方式中,进一步对这些空间相关矩阵进行加权,从而求出差。这里,若假定各目标声源和背景噪声没有相关,则Rxxt、f可通过式7表示。[0058]【数7】[0059][0060]在式⑺中,若考虑到背景噪声由来的分量是Vt、fVht、f以及式⑶和式⑷,则残存于式6的来自背景噪声的分量可通过式8表示。[0061]【数8】[0062][0063]由此,在式8的值为0的情况下,可认为残存于目标声源的空间相关矩阵的估计值中的背景噪声的影响为〇。于是,目标音空间相关矩阵噪声除去部60如式⑼所示,使用通过第1系数α而被加权的第1空间相关矩阵、即平均目标音特征量矩阵Vmvf和通过第2系数β而被加权的第2空间相关矩阵、即平均噪声特征量矩阵Vv^f来计算目标声源的空间相关矩阵。[0064]【数9】[0065]Rnf=QR7ntvf-PR7vf···9[0066]另外,由噪声下目标音空间相关矩阵估计部40计算对Vmvf以第1系数α加权的Rn+Vf,由噪声空间相关矩阵估计部50计算对匕⑴以第2系数β加权的Rvf。[0067]此时,残存于式8的目标声源的空间相关矩阵估计值中的来自背景噪声的分量可通过式(10表示。[0068]【数1〇】[0069][0070]用于使式10的值与0—致的必要充分条件是式11成立。[0071]【数11】[0072][0073]式(I1的Σtφnt、fVt、fvHt、fΣtφnt、f和ΣtφVt、fVt、fvHt、fStKt、f使用不同的权重来计算噪声特征量矩阵Vt、fvHt、f的加权时间平均。当前,若假定背景噪声的空间相关矩阵不会随时间发生大幅变化,则可认为这2个加权时间平均值近似一致。其结果是,式11可进一步改写为式12那样。[0074]【数12】[0075][0076]并且,通过式(12和式⑼可得到式(13。[0077]【数13】[0078][0079]在式(13中,TΣtφnt、f是与目标声源η对应的掩码的时间平均的倒数,TΣtφνα、ί·是与背景噪声对应的掩码的时间平均的倒数,c是标量常数。c是根据在哪个时间区间求出目标声源的空间相关矩阵而确定的常数,在全时间区间的情况下C=StJnt、fT,主要在存在目标声源η的时间区间求出的情况下c=l即可。[0080]在C=XtJnt、fT的情况下,在式⑼中,相当于α=1的情况,并且相当于对于式6仅变更ITVf的增益而不改变与目标声源有关的空间相关矩阵的增益地去除噪声的影响的情况。[0081]对式13进一步与式⑶、式⑷一起进行整理,可得到式14〜(16。[0082]【数14】[0083][0084]【数15】[0085][0086]【数16】[0087]Rnf=cRn+vf-Rvf···16[0088]例如,在c=1的情况下,式(16可如式(17那样表示。这样,基于背景噪声的空间相关矩阵不会随时间大幅变化的假定,在乘以适当的系数的基础上求出差,由此能够估计出与第η个目标声源有关地正确去除背景噪声的影响的空间相关矩阵。[0089]【数17】[0090]Rnf=Rn+vf-Rvf···17[0091]式(14相当于噪声下目标音空间相关矩阵估计部40估计噪声下目标音空间相关矩阵Rn+Vf的处理。此外,式(15相当于噪声空间相关矩阵估计部50估计噪声空间相关矩阵Rvf的处理。此外,式(16相当于目标音空间相关矩阵噪声除去部60估计目标音的空间相关矩阵匕⑴的处理。[0092]此外,在声源数N=I时,在如式(18那样确定了c的情况下,可以通过式(19〜21来计算目标声源的空间相关矩阵。[0093]【数18】[0094]c=EtΦηt,fT···18[0095]【数19】[0096][0097]【数20】[0098][0099]【数21】[0100]R〃nf=R〃n+Vf-R〃Vf…(21[0101]在式(19〜(21中不使用目标声源的掩码Φnt、f,因此可认为不必估计目标声源的掩码就能够估计目标声源的空间相关矩阵。这种情况下,如式(19所示,在N=I的情况下,噪声下目标音空间相关矩阵是观测特征量矩阵的每个频率的时间平均。[0102]掩码估计部20以通过N+1个要素分布构成的混合分布按照每个频率将所述观测特征量矢量的概率分布模型化,该N+1个要素分布是由具有协方差矩阵按照每个时刻取不同的值的标量参数和不随时间变化的参数作为要素的正定值厄密矩阵的积表现的平均〇的M维复高斯分布。并且,掩码估计部20将通过以混合分布接近观测特征量矢量的分布的方式估计混合分布的参数而得到的要素分布的各个事后概率作为第1掩码和第2掩码。[0103]由此,掩码估计部20在观测特征量矢量的分布的形状无法利用超球面上的圆状来正确地近似的情况下,也能够正确地近似分布的形状,进行正确的掩码估计。[0104]若将与存在目标声源η的时间频率点的观测特征量矢量的概率密度函数对应的要素分布作为Pnxt、f;©,将与仅存在噪声的时间频率点的观测特征量矢量的概率密度函数对应的要素分布作为PvXt、f;Θ,则掩码估计部20如式22和式23所示对各个要素分布进行模型化。[0105]【数22】[0106]Pnxt,f;Θ=Ncxt,f;0,rnt,fBnf···22[0107]【数23】[0108]pvxt,f;Θ=Ncxt,f;0,rvt,fBvf···23[0109]这里,Ncχ;μ、Σ是平均矢量μ、协方差矩阵Σ的M维复高斯分布。在式(22和式23的要素分布的式中,化1〇、^1幻是与各音频信号的大小对应的标量参数,被设定为可以取按照每个时间频率点而不同的值。[0110]另一方面,Bnf和Bvf是表现音频信号从空间上的哪个方向到来的矩阵,规定为具有不随时间变化的参数作为要素的矩阵。心f和Bvf是确定要素分布的形状的参数,在上述的模型中,不设置特别的制约。因此,各要素分布可具备M维复高斯分布所能表现的任意形状,不限于超球面上的圆状的分布。[0111]此外,Θ={rnt、f、rvt、f、Bnf、BVf、ληf、λνf}表示将上述的复高斯分布构成为要素分布的混合分布的模型参数的集合。ληf、λνf分别是与目标声源n所存在的时间频率点对应的要素分布的混合比、以及与仅存在背景噪声的时间频率点对应的要素分布的混合比,满足Σηληf+λνf=1、1ληf〇,1λνf〇。此外,由上述的要素分布构成的混合分布如式24所示那样。[0112]【数24】[0113][01M]掩码估计部20使用上述混合模型对所有的时间频率点的观测特征量矢量进行模型化,以上述的混合分布接近观测特征量矢量的概率分布的方式估计各模型参数。[0115]掩码估计部20在估计出模型参数后,通过式25或式26来估计与目标声源n、背景噪声分别对应的掩码,作为各要素分布的事后概率分布。[0116]【数25】[0117][0118]【数26】[0119][0120]各要素分布在M维复高斯分布的范围内可具备任意形状,因此在各要素分布无法使观测特征量矢量的分布的形状正确近似为超球面上的圆的情况下,也能够正确地近似该形状。[0121]另外,一般地,与各目标声源η对应的音频信号具备在从麦克风位置观察时主要从存在声源的方向(声源方向)到来的性质。因此,与目标声源η对应的要素分布的正定值厄密矩阵具有在与声源方向对应的部分空间具备最大的固有值,除此以外的部分空间的固有值具有较小的值的性质。[0122]另一方面,背景噪声的声音通常从所有方向到来,因此与背景噪声对应的要素分布的正定值厄密矩阵的矩阵分量在与所有方向对应的部分空间内分散。因此,不会发生固有值偏重存在于特定的部分空间的情况。[0123]于是,掩码估计部20还将要素分布中的具有不随时间变化的参数作为要素的正定值厄密矩阵的固有值的分布的形状最平坦的要素分布的事后概率作为与背景噪声对应的第2掩码。由此,掩码估计部20能够自动估计出所估计的掩码中的哪个对应于背景噪声。[0124]实施例1[0125]下面使用具体例来说明第1实施方式。首先,在N=I的情况下,空间相关矩阵估计装置1例如对在背景噪声下由Μ=2以上的麦克风收录的1个人说话的声音估计除去噪声的影响后的空间相关矩阵。此外,在N1的情况下,空间相关矩阵估计装置1例如对由M1个的麦克风收录的N个人的会话按照每个说话人估计除去噪声的影响后的空间相关矩阵。[0126]这里,将由麦克风m收录的观测信号记作ymττ由来自各声源信号η的音频信号znmτ与来自背景噪声的音频信号umτ之和构成,因而按照式27所示进行模型化。[0127]【数27】[0128][0129]时间频率分析部10收取由所有的麦克风收录的上述观测信号,按照每个观测信号ym⑴应用短时间信号分析来求出每个时间频率的信号特征量Xmt、f。作为短时间信号分析,可使用短时间离散傅里叶转换或短时间离散余弦转换等的各种方法。[0130]时间频率分析部10还构成式28所示那样的观测特征量矢量Xt、f,作为对于所有的麦克风归纳在各时间频率得到的信号特征量xmt、f的矢量。[0131]【数28】[0132][0133]接着,观测特征量矩阵计算部30收取观测特征量矢量Xt、f,按照每个时间频率点通过式29求出观测特征量矩阵Rxxt、f。[0134]【数29】[0135]Rxxt,f=xt,fxHt,f…(29[0136]此外,掩码估计部20收取观测特征量矢量xt、f,按照每个时间频率点估计各目标声源与背景噪声以何种比例混合来作为掩码的值。另外,如式30所示,假定在时间频率点,与所有目标声源和背景噪声有关的掩码的总和为1。[0137]【数30】[0138][0139]噪声下目标音空间相关矩阵估计部40收取与各目标声源有关的掩码的估计值Φηt、f和观测特征量矩阵Rxxt、f,对于各目标声源η,按照每个频率f,如式(31那样求出噪声下目标音空间相关矩阵Rn+Vf。[0140]【数31】[0141][0142]噪声空间相关矩阵估计部50收取与背景噪声有关的掩码的估计值ivt、f和观测特征量矩阵Rxxt、f,按照每个频率f,如式32那样求出噪声空间相关矩阵Rvf。[0143]【数32】[0144][0145]目标音空间相关矩阵噪声除去部60收取噪声下目标音空间相关矩阵的估计值Rn+Vf和噪声空间相关矩阵的指定值Rvf,对于各目标声源n,按照每个频率f,通过式33求出目标音的空间相关矩阵Rnf。[0146]【数33】[0147]Rnf=Rn+vf-Rvf···33[0148]所求出的空间相关矩阵可用于各种用途。例如,与目标声源η的空间相关矩阵的最大固有值对应的固有矢量与表示从目标声源η到麦克风的空间传播特性的导向矢量一致。而且,根据这样估计出的导向矢量1^〇和式34所示的观测信号自身的空间相关矩阵Rxf,能够如式(35那样求出最小方差无失真响应(MVDR:MinimumVarianceDistortionlessResponse滤波器Wnf。[0149]【数34】[0150][0151]【数35】[0152][0153]通过将MVDR滤波器用于观测特征量矢量xt、f,由此可抑制目标声源η以外的声源和背景噪声的分量,如式36所示,能够得到与目标声源η对应的信号特征量的估计值snt、fO[0154]【数36】[0155][0156]此外,在求出目标声源η的空间相关矩阵匕⑴和观测信号的空间相关矩阵Rxf时,能够如式37那样构成多通道维纳滤波器Wnf。[0157]【数37】[0158][0159]通过将该多通道维纳滤波器Wnf用于观测特征量矢量xt、f,从而可抑制目标声源η以外的声源和背景噪声的分量,如式38所示,能够得到与目标声源η对应的特征量矢量的估计值Snt、f。[0160]【数38】[0161][0162]实施例2[0163]接着,使用图2说明掩码估计部20的具体例。图2是表示第1实施方式的空间相关矩阵估计装置的掩码估计部的结构的一例的图。掩码估计部20使用混合复高斯分布对观测特征量矢量的概率分布进行模型化,由此来估计掩码。[0164]首先,掩码估计部20使用混合复高斯分布对各频率f的观测信号Xt、f的生分量布如式39所示进行模型化。[0165]【数39】[0166][0167]这里,Θ={λη;〇、λν;〇、rnt、f、rvt、f、Bnf、Bvf}是混合复高斯分布的参数集合Anf和λνf是表示与第n个声源和背景噪声分别对应的复高斯分布的混合权重的参数,满足式40。化t、f和rvt、f分别是表示第η个声源和背景噪声的时间频率点(t、f的能量的期待值的标量参数。[0168]【数40】[0169]EnAnf+λνί=1···40[0170]Bnf和Bvf分别是通过能量而被正规化的第n个声源和背景噪声的不随时间变化的空间相关矩阵。这里,Bnf和Bvf成为确定观测特征量矢量的分布的参数,通过将该参数求作满秩的矩阵,由此在利用超球面上的圆状无法正确近似的情况下,也能够更为正确地近似观测特征量矢量的分布。[0171]事后概率估计部201根据式39的概率分布,求出观测信号xt、f由各个要素分布而引起的概率,从而进行掩码的估计。首先,参数初始化部203设定各参数的初始值,将所设定的初始值保持在参数保持部204中。参数初始化部203例如通过随机数来确定参数的初始值。[0172]接着,事后概率估计部201使用输入数据观测信号和当前的分布参数,如式41和式42所示那样来计算与各个要素分布有关的事后概率。这里,计算出的事后概率相当于各频率点的掩码。[0173]【数41】[0174][0175]【数42】[0176][0177]接着,参数更新部202根据EM算法来更新分布参数。此时,参数更新部202如式43所示那样来设定用于最大似然估计的成本函数。[0178]【数43】[0179][0180]此外,参数更新部202使用由事后概率估计部201估计出的事后概率,如式44所示那样来设定Q函数。[0181]【数44】[0183]这里,©1表示在第t次反复更新中得到的参数。此外,Φηα、ί·和Φνα、ί·由式36和式37给出。参数更新部202在式45所示的条件下,将通过各个参数对式44的Q函数进行偏微分的值设为0,由此导出式46〜式48所示的参数更新规则。[0184]【数45】[0185]EnAnf+Avf=1···45[0186]【数46】[0187][0188]【数47】[0189][0190]【数48】[0191][0192]由此,参数更新部202更新分布参数Θ。另外,通过对Θ设定适当的事前分布,能够使用已知的方法来实现精度更为良好的掩码估计。[0193]此外,参数更新部202可以在线实施分布参数的更新。这种情况下,参数更新部202在时刻t使用前1个时刻t-1的估计值仏t-1、f来如式49所示那样表示由式47赋予的更新规则。[0194]【数49】[0195][0196]此外,参数更新部202同样地如式50所示那样表示由式48赋予的更新规则。[0197]【数50】[0198][0199]接着,参数更新部202将使用更新规则更新的新的参数复制到参数保持部204中。并且,掩码估计部20反复执行事后概率估计部201、参数更新部202和参数保持部204的处理,直到执行了所确定的次数例如30次),或者计算结果收敛为止。[0200]实施例3[0201]在实施例3中,说明在实施例2的掩码估计方法中发生的置换问题的解决方法。在实施例2中,掩码估计部20按照每个频率f求出了掩码Φnt、f和ΦVt、f。然而,在通过各频率估计出的掩码中,会引起与噪声对应的掩码与目标声源的掩码互换,或者在不同频率间,与相同的目标声源对应的掩码被与不同目标声源编号对应起来的情况。[0202]因此,为了按照每个目标声源来正确地估计空间相关矩阵,需要由掩码估计部20正确地确定与背景噪声对应的掩码是哪个掩码,此外还需要在不同的频率间将相同的目标声源与相同的声源编号对应起来。这里,将这个问题称作置换问题。[0203]为了解决置换问题,掩码估计部20需要进行以下的⑴和⑵的操作。[0204]1在各频率中,确定哪个掩码对应于背景噪声。[0205]2在不同的频率间,将与相同的目标声源对应的掩码与相同的声源编号关联起来。[0206]首先,说明⑴的操作。此时,按照实施例2的方法,在各频率f求出NfBnf和1个Bvf。以下,为了简化说明,标记为Bof=Bvf。这里,掩码估计部20根据以下的(I-1〜(1-3来确定N+lfBnfN3n30中哪个Bnf对应于背景噪声。[0207]1-1[0208]对于各η,求出BnO'的M个固有值,如式51所示那样构成将这些值按照从大到小的顺序排列而得到的矢量γnf。[0209]【数51】[0210]γnf=[γn,lf,),γn,lf,),···,γn,Mf,)]…(51[0211]1-2[0212]准备用于评价γηf的分布的平坦的程度的函数E·,通过式(52求出与该值最大的η对应的编号nv。[0213]【数52】[0214][0215]1-3[0216]将与nv对应的掩码确定为与背景噪声对应的掩码。作为E·的确定方式,例如作为求出满足式53所示的矢量的要素而以成为1的方式正规化的丫„〇的熵的函数,如式54所示那样来确定。[0217]【数53】[0218][0219]【数54】[0221]这里,H·是求出满足要素而成为1的矢量U=[ιΐι、ιΐ2、···、ιΐΜ]的熵的函数,如式55所示那样定义。[0222]【数55】[0223][0224]接着,说明(2的操作。首先,掩码估计部20对于估计出的N个掩码,需要在所有的频率中,将与相同的目标声源η对应的掩码cKt、f与相同的目标声源的编号η关联起来。作为具体的手段,可考虑如下的2-1〜2-4。[0225]2-1[0226]参加会话的人数N是已知的,掩码估计部20将通过实施例2的方法估计出的掩码中的除背景噪声的掩码以外的N个掩码设为Kt、fη=1、···、Ν。[0227]这里,掩码表示该目的信号以何种程度包含于各时间频率点中的比例,因此存在某1个声源的掩码的时间序列在所有的频率中同步的倾向。利用这种性质,掩码估计部20将得到的掩码的所有的η和f•的时间序列Kt、ft=l、···、Τ聚类为N个群集,由此来解决置换问题。聚类例如使用k-means法,或者可使用参考文献IH.Sawada,S.Araki,S.Makino,“UnderdeterminedConvolutiveBlindSourceSeparationviaFrequencyBin-WiseClusteringandPermutationAlignment,’,IEEETrans.Audio,Speech,andLanguageProcessing,vol·19,no·3,pp·516-527,March2011·中所述的方法D[0228]2-2[0229]掩码估计部20在使用式41和式42进行的掩码的估计中,将Bnf固定为按照每个说话人的位置而预先学习的空间相关矩阵Br^alnedfAr^alnedf例如是作为学习数据而事先准备好每个说话人的位置的观测信号,根据该学习数据通过实施例2的方法来估计掩码,作为式47的结果而得到的仏f。[0230]该手段在椅子的位置大致固定的在会议室等的会话中是有效的,将与各座位对应的说话人作为目标声源n,能够估计出与之对应的掩码Φnt、f。[0231]2-3[0232]在手段2-3中,掩码估计部20在手段2-2中将Bnf的初始值设为Bntrainedf,通过实施例2的方法来估计掩码。手段2-2中,椅子的位置大致固定,然而在椅子带有脚轮等而说话人的位置在会话中略微变动等的情况下也是有效的。[0233]2-4[0234]在手段2-4中,掩码估计部20将Bntrainedf用作Bnf的事前信息来进行掩码的估计。具体地,掩码估计部20以η0〜1之间的实数作为权重,通过式56来进行式47的估计。[0235]【数56】[0236][0237]手段2-3与手段2-2同样地,椅子的位置大致固定,然而在椅子带有脚轮等而说话人的位置在会话中略微变动等的情况下也是有效的。[0238]实施例4[0239]作为实施例4,说明使用由空间相关矩阵估计装置1得到的目标声源的空间相关矩阵来进行方向估计的情况。首先,通过与实施例1同样的步骤,如式57所示那样得到与声源η有关的导向矢量。[0240]【数57】[0241]hnf=[hnl,···,hr»,···,hnM]Tm»7々番号)…(57[0242]接着,如参考文献2S.Araki,Η·Sawada,R.MukaiandS.Makino,“DOAestimationformultiplesparsesourceswithnormalizedobservationvectorclustering,’,,ICASSP2006,Vol.5,pp.33-36,2006.所述,若M个麦克风配置已知而将麦克风m的3维坐标设为dm,将从麦克风阵列观察的声源η的方位角设为θη,将仰角设为φη,则可通过式58计算出qn=[cosθηcosφη、cosθηsinφη、sinφη]τ。[0243]【数58】[0244][0245]这里,c是音速,f栏是与频率索引f对应的频率Hz,ξηί·=[arghnlhnj、···、arghnMVj]T,D=[di-dv、dM_dj]T,J是基准麦克风的索引(从1〜M中任意选择),+表示一般化逆矩阵。[0246]并且,对于通过式58得到的到来方向如幻,根据不发生空间的混叠现象的频率范围的qnf的平均值,作为声源η的到来方向qn。另外,还可以不计算q,而计算方位角、仰角等的平均值。[0247][第1实施方式的处理][0248]下面使用图3,说明第1实施方式的空间相关矩阵估计装置1的处理。图3是表示第1实施方式的空间相关矩阵估计装置的处理的一例的图。首先,如图3所示,时间频率分析部10取得观测信号(步骤S10,应用短时间傅里叶转换等的短时间信号分析来计算每个时间频率点的信号特征量步骤S11,构成观测特征量矢量步骤S12。[0249]接着,观测特征量矩阵计算部30根据观测特征量矢量,计算每个时间频率点的观测特征量矩阵步骤S13。然后,掩码估计部20根据观测特征量矢量来估计掩码步骤S14。[0250]噪声下目标音空间相关矩阵估计部40对观测特征量矩阵使用与目标音对应的掩码,并通过规定的系数进行加权,由此估计噪声下目标音空间相关矩阵步骤S15。此外,噪声空间相关矩阵估计部50对观测特征量矩阵使用与背景噪声对应的掩码,并通过规定的系数进行加权,由此估计噪声空间相关矩阵步骤S16。[0251]此时,在噪声下目标音空间相关矩阵的估计中使用的系数与在噪声空间相关矩阵的估计中使用的系数之比例如等于与目标音对应的掩码的时间平均的倒数与对应于背景噪声的掩码的时间平均的倒数之比。[0252]最后,目标音空间相关矩阵噪声除去部60例如从噪声下目标音空间相关矩阵中减去噪声空间相关矩阵,从而估计出目标音的空间相关矩阵步骤S17。[0253]此外,使用图4来说明图3的步骤S14的掩码估计处理的示例。图4是表示第1实施方式的空间相关矩阵估计装置的掩码估计处理的一例的图。首先,掩码估计部20使用混合复高斯分布对观测信号的生成分布进行模型化步骤S141。[0254]参数初始化部203通过随机数等来设定模型的参数的初始值步骤S142。接着,事后概率估计部201使用观测信号和参数来计算与各要素分布有关的事后概率步骤S143。这里,在未进行30次事后概率的计算的情况下(步骤S144,N〇,参数更新部202使用计算出的事后概率来更新参数步骤S145。而且,掩码估计部20返回到步骤S143反复执行处理。[0255]并且,在执行了30次事后概率的计算的情况下步骤S144,Yes,参数更新部202进行最后的参数更新。最后,掩码估计部20将计算出的事后概率作为掩码来进行估计(步骤S146〇[0256][第1实施方式的效果][0257]为了确认本发明的效果,下面对使用现有方法和第1实施方式实施的确认实验进行说明。[0258]确认实验1[0259]在确认实验1中,在公共汽车中、咖啡店等的存在背景噪声的环境下,1名说话人N=1朝向平板电脑朗读文章的状况下,利用安装于平板电脑的M=6个的麦克风收录了信号。此时,对所收录的信号使用各方法进行了声音识别的情况下的声音识别精度如下所述。基于下述的结果,可确认到通过使用第1实施方式,声音识别精度得以提高。[0260]⑴直接进行声音识别的情况:87.11%[0261]2通过Watson分布进行掩码估计后,适用MVDR的情况现有方法):89·40%[0262]3使用第1实施方式,离线进行掩码估计后,适用MVDR的情况实施例1、离线):91.54%[0263]4使用第1实施方式,将事前学习的参数作为初始值,在线进行了掩码估计后,适用MVDR的情况实施例1、在线):91·80%[0264]确认实验2[0265]在确认实验2中,在通常的会议室内,4名说话人N=4围在直径1.2m的圆桌旁自由会话的状况下,通过圆桌中央的M=S个的麦克风收录了信号。此时,对所收录的信号使用各方法进行了声音识别的情况下的声音识别精度如下所述。根据下述的结果,可确认到通过使用第1实施方式,声音识别精度得以提高。[0266]1直接进行声音识别的情况:20.9%[0267]2使用第1实施方式,在离线进行了掩码估计后,适用MVDR的情况实施例1、离线):54.0%[0268]3使用第1实施方式,在线进行了掩码估计后,适用MVDR的情况实施例1、在线):52.0%[0269]时间频率分析部10根据被输入的观测特征量来计算观测特征量矢量。此外,掩码估计部20估计作为每个时间频率点的第1音频信号在观测信号的特征量中所含比例的第1掩码、以及作为每个时间频率点的第2音频信号在观测信号的特征量中所含比例的第2掩码。并且,观测特征量矩阵计算部30根据观测特征量矢量,按照每个时间频率点,将观测特征量矢量与该观测特征量矢量的厄密转置相乘来计算观测特征量矩阵。[0270]噪声下目标音空间相关矩阵估计部40根据观测信号和第1掩码来计算对计算出的第1特征量矩阵以第1系数加权后的第1空间相关矩阵。此外,噪声空间相关矩阵估计部50根据观测信号和第2掩码来计算对计算出的第2特征量矩阵以第2系数加权后的第2空间相关矩阵。并且,目标音空间相关矩阵噪声除去部60根据第1空间相关矩阵和第2空间相关矩阵来估计目标声源的空间相关矩阵。[0271]这样,根据第1实施方式,进行基于第1系数和第2系数的适当的加权,因此相比直接使用第1特征量矩阵和第2特征量矩阵的情况而言,能够从观测信号中正确地去除背景噪声的影响,能够精度良好地估计目标声源的空间相关矩阵。[0272]此外,第1系数与第2系数的比率例如等于第1掩码的时间平均值的倒数与第2掩码的时间平均值的倒数的比率。由此,考虑到背景噪声的空间相关矩阵相对于所估计的目标声源的空间相关矩阵不会随时间而大幅变化的情况,估计精度提高。[0273]此外,掩码估计部20以由N+1个的要素分布构成的混合分布按照每个频率将观测特征量矢量的概率分布模型化,该N+1个的要素分布是由具有协方差矩阵按照每个时刻取不同的值的标量参数和不随时间变化的参数作为要素的正定值厄密矩阵的积表现的平均〇的M维复高斯分布。[0274]并且,掩码估计部20将以混合分布接近观测特征量矢量的分布的方式估计混合分布的参数而得到的要素分布的各自的事后概率作为第1掩码和第2掩码。由此,在观测特征量矢量的分布的形状以超球面上的圆状无法正确地近似的情况下,也能够正确地估计掩码。[0275]而且,掩码估计部20将要素分布中的要素具备不随时间变化的参数的正定值厄密矩阵的固有值的分布的形状最平坦的要素分布的事后概率作为与背景噪声对应的第2掩码。由此,能够自动地估计由掩码估计部估计出的掩码中的哪个掩码对应于背景噪声。[0276][系统结构等][0277]此外,图示出的各装置的各结构要素仅为功能概念性的内容,未必需要物理上如图示那样构成。即,各装置的分散统合的具体方式不限于图示的情况,可以根据各种负荷和使用状况等将其全部或一部分以任意的单位在功能或物理上分散统合地构成。进而,在各装置中进行的各处理功能的全部或任意的一部分可由CPUCentralProcessingUnit:中央处理单元和通过该CPU解析执行的程序来实现,或者可以作为基于连线逻辑的硬件而实现。[0278]此外,在本实施方式中说明的各处理中的作为自动执行的内容而说明的处理的全部或一部分也可以手动执行,或者,作为手动执行的内容而说明的处理的全部或一部分也可以通过公知的方法来自动执行。此外,关于在上述说明书或附图中示出的处理步骤、控制步骤、具体的名称、包含各种数据和参数的信息,除特殊记载的情况以外都可以任意变更。[0279][程序][0280]作为一个实施方式,作为软件包或在线软件而将执行上述的空间相关矩阵估计的空间相关矩阵估计程序安装在期望的计算机上,从而能够安装空间相关矩阵估计装置。例如,通过使信息处理装置执行上述的空间相关矩阵估计程序,能够使信息处理装置作为空间相关矩阵估计装置发挥功能。这里所述的信息处理装置包括桌面型或笔记本型的个人计算机。此外,除此以外,信息处理装置的范畴内还包括智能手机、移动电话和PHSPersonalHandyphoneSystem:个人手持电话系统等的移动体通信终端以及PDAPersonalDigitalAssistant:个人数字助理等的单板型终端等。[0281]此外,空间相关矩阵估计装置还可以作为以用户使用的终端装置未做客户端,向该客户端提供与上述的空间相关矩阵估计有关的服务的服务器装置而安装。例如,空间相关矩阵估计装置可以作为将观测信号作为输入,并将目标声源的空间相关矩阵作为输出的提供空间相关矩阵估计服务的服务器装置而安装。这种情况下,空间相关矩阵估计装置既可以作为Web服务器安装,也可以作为通过承包商提供与上述的空间相关矩阵估计有关的服务的云端系统而安装。[0282]图5是表示通过执行程序来实现空间相关矩阵估计装置的计算机的一例的图。计算机1000例如具有存储器1010和CPU1020。此外,计算机1000具有硬盘驱动器接口1030、磁盘驱动器接口1040、串行端口接口1050、视频适配器1060和网络接口1070。这些各部通过总线1080而连接起来。[0283]存储器1010包括ROMReadOnlyMemory1011和RAMRandomAccessMemory1012。1?麗1011例如存储BIOSBasicInputOutputSystem:基本输入输出系统)等的BOOT程序。硬盘驱动器接口1030与硬盘驱动器1090连接。磁盘驱动器接口1040与磁盘驱动器1100连接。例如磁盘或光盘等的可装卸的存储介质被插入到磁盘驱动器1100中。串行端口接口1050例如与鼠标1110、键盘1120连接。视频适配器1060例如与显示器1130连接。[0284]硬盘驱动器1090例如存储0S1091、应用程序1092、程序模块1093和程序数据1094。即,规定空间相关矩阵估计装置1的各处理的程序作为记述有可由计算机执行的代码的程序模块1093而被安装。程序模块1093例如被存储于硬盘驱动器1090。例如,用于执行与空间相关矩阵估计装置1的功能结构同样的处理的程序模块1093被存储于硬盘驱动器1090。另夕卜,硬盘驱动器1090还可以被SSDSolidStateDrive:固态硬盘代替。[0285]此外,在上述实施方式的处理中使用的常设数据作为程序数据1094而例如存储于存储器1010和硬盘驱动器1090中。并且,CPU1020根据需要而将存储在存储器1010和硬盘驱动器1090中的程序模块1093和程序数据1094读出到RAMl012中执行。[0286]另外,程序模块1093和程序数据1094不限于存储于硬盘驱动器1090中的情况,例如还可以存储于可装卸的存储介质中,通过磁盘驱动器1100等而被CPU1020读出。或者,程序模块1093和程序数据1094还可以存储于经由网络LANLocalAreaNetwork:局域网)、WANWideAreaNetwork:广域网)等)而连接的其他计算机中。并且,程序模块1093和程序数据1094还可以通过网络接口1070而被CPU1020从其他的计算机中读出。[0287]标号说明[0288]1:空间相关矩阵估计装置,10:时间频率分析部,20:掩码估计部,30:观测特征量矩阵计算部,40:噪声下目标音空间相关矩阵估计部,50:噪声空间相关矩阵估计部,60:目标音空间相关矩阵噪声除去部,201:事后概率估计部,202:参数更新部,203:参数初始化部,204:参数保持部。

权利要求:1.一种空间相关矩阵估计装置,其根据观测特征量矢量,估计第1掩码以及第2掩码,根据所述第1掩码和所述第2掩码来估计目标声源的空间相关矩阵,其中,该观测特征量矢量是基于与N个所述目标声源其中,N是1以上的整数对应的N个第1音频信号和与背景噪声对应的第2音频信号混合存在的状况下在分别不同的位置处收录的M个其中,M是2以上的整数观测信号而计算出的,该第1掩码是每个时间频率点的所述第1音频信号在所述观测信号的特征量中所含比例,该第2掩码是每个时间频率点的所述第2音频信号在所述观测信号的特征量中所含比例,该空间相关矩阵估计装置的特征在于,具有噪声除去部,该噪声除去部根据第1空间相关矩阵和第2空间相关矩阵来估计所述目标声源的空间相关矩阵,该第1空间相关矩阵是以第1系数对基于所述观测信号和所述第1掩码计算出的第1特征量矩阵进行加权而得到的,该第2空间相关矩阵是以第2系数对基于所述观测信号和所述第2掩码计算出的第2特征量矩阵进行加权而得到的。2.根据权利要求1所述的空间相关矩阵估计装置,其特征在于,所述噪声除去部计算所述第1系数和所述第2系数,使得在背景噪声的空间相关矩阵不随时间变化的条件下,所述目标声源的空间相关矩阵的估计值中包含的来自背景噪声的分量为0。3.根据权利要求1或2所述的空间相关矩阵估计装置,其特征在于,所述噪声除去部计算所述第1系数和所述第2系数,使得所述第1系数与所述第2系数的比率等于所述第1掩码的时间平均值的倒数与所述第2掩码的时间平均值的倒数的比率。4.根据权利要求1至3中的任意一项所述的空间相关矩阵估计装置,其特征在于,在N=I的情况下,所述第1空间相关矩阵是根据所述观测特征量矢量计算出的观测特征量矩阵的每个频率的时间平均。5.根据权利要求1所述的空间相关矩阵估计装置,其特征在于,该空间相关矩阵估计装置还具有:时间频率分析部,其对所述观测信号应用短时间信号分析,提取每个时间频率点的信号特征量,按照每个时间频率点计算观测特征量矢量,该观测特征量矢量是以所述信号特征量为分量的M维纵矢量;观测特征量矩阵计算部,其根据所述观测特征量矢量,按照每个时间频率点将所述观测特征量矢量与该观测特征量矢量的厄密转置相乘来计算观测特征量矩阵;噪声下目标音空间相关矩阵估计部,其对于各个所述目标声源,计算按照每个时间频率点将所述观测特征量矩阵与所述第1掩码相乘而得到的矩阵的每个频率的时间平均作为第1特征量矩阵,通过对所述第1特征量矩阵乘以所述第1系数而估计所述第1空间相关矩阵;以及噪声空间相关矩阵估计部,其对于所述背景噪声,计算按照每个时间频率点将所述观测特征量矩阵与所述第2掩码相乘而得到的矩阵的每个频率的时间平均作为第2特征量矩阵,通过对所述第2特征量矩阵乘以所述第2系数而估计所述第2空间相关矩阵,所述噪声除去部通过从所述第1空间相关矩阵中减去所述第2空间相关矩阵来估计所述目标声源的空间相关矩阵,所述第1系数与所述第2系数的比率等于所述第1掩码的时间平均值的倒数与所述第2掩码的时间平均值的倒数的比率。6.根据权利要求1至5中的任意一项所述的空间相关矩阵估计装置,其特征在于,该空间相关矩阵估计装置还具有掩码估计部,该掩码估计部以由N+1个的要素分布构成的混合分布按照每个频率将所述观测特征量矢量的概率分布模型化,将以所述混合分布接近所述观测特征量矢量的分布的方式估计所述混合分布的参数而得到的所述要素分布的各个事后概率作为所述第1掩码和所述第2掩码,其中,该N+1个的要素分布是由下述的正定值厄密矩阵的积表现的平均O的M维复高斯分布,该正定值厄密矩阵具有协方差矩阵按照每个时刻取不同的值的标量参数和不随时间变化的参数作为要素。7.根据权利要求6所述的空间相关矩阵估计装置,其特征在于,所述掩码估计部将所述要素分布中的具有所述不随时间变化的参数作为要素的正定值厄密矩阵的固有值的分布的形状最平坦的要素分布的事后概率作为所述第2掩码。8.—种空间相关矩阵估计方法,根据观测特征量矢量,估计第1掩码以及第2掩码,根据所述第1掩码和所述第2掩码来估计目标声源的空间相关矩阵,其中,该观测特征量矢量是基于与N个所述目标声源其中,N是1以上的整数对应的N个第1音频信号和与背景噪声对应的第2音频信号混合存在的状况下在分别不同的位置处收录的M个其中,M是2以上的整数观测信号而计算出的,该第1掩码是每个时间频率点的所述第1音频信号在所述观测信号的特征量中所含比例,该第2掩码是每个时间频率点的所述第2音频信号在所述观测信号的特征量中所含比例,该空间相关矩阵估计方法的特征在于,包括噪声除去步骤,在该噪声除去步骤中,根据第1空间相关矩阵和第2空间相关矩阵来估计所述目标声源的空间相关矩阵,该第1空间相关矩阵是以第1系数对基于所述观测信号和所述第1掩码计算出的第1特征量矩阵进行加权而得到的,该第2空间相关矩阵是以第2系数对基于所述观测信号和所述第2掩码计算出的第2特征量矩阵进行加权而得到的。9.根据权利要求8所述的空间相关矩阵估计方法,其特征在于,在所述噪声除去步骤中,计算所述第1系数和所述第2系数,使得在背景噪声的空间相关矩阵不随时间变化的条件下,在所述目标声源的空间相关矩阵的估计值中包含的来自背景噪声的分量为〇。10.根据权利要求8或9所述的空间相关矩阵估计方法,其特征在于,在所述噪声除去步骤中,计算所述第1系数和所述第2系数,使得所述第1系数与所述第2系数的比率等于所述第1掩码的时间平均值的倒数与所述第2掩码的时间平均值的倒数的比率。11.根据权利要求8所述的空间相关矩阵估计方法,其特征在于,该空间相关矩阵估计方法还包括:时间频率分析步骤,对所述观测信号应用短时间信号分析,提取每个时间频率点的信号特征量,按照每个时间频率点计算观测特征量矢量,该观测特征量矢量是以所述信号特征量为分量的M维纵矢量;观测特征量矩阵计算步骤,根据所述观测特征量矢量按照每个时间频率点将所述观测特征量矢量与该观测特征量矢量的厄密转置相乘来计算观测特征量矩阵;噪声下目标音空间相关矩阵估计步骤,对于各个所述目标声源,计算按照每个时间频率点将所述观测特征量矩阵与所述第1掩码相乘而得到的矩阵的每个频率的时间平均作为第1特征量矩阵,通过对所述第1特征量矩阵乘以所述第1系数来估计所述第1空间相关矩阵;以及噪声空间相关矩阵估计步骤,对于所述背景噪声,计算按照每个时间频率点将所述观测特征量矩阵与所述第2掩码相乘而得到的矩阵的每个频率的时间平均作为第2特征量矩阵,通过对所述第2特征量矩阵乘以所述第2系数来估计所述第2空间相关矩阵,在所述噪声除去步骤中,通过从所述第1空间相关矩阵中减去所述第2空间相关矩阵来估计所述目标声源的空间相关矩阵,所述第1系数与所述第2系数的比率等于所述第1掩码的时间平均值的倒数与所述第2掩码的时间平均值的倒数的比率。12.—种用于使计算机执行权利要求8至11中的任意一项所述的空间相关矩阵估计方法的空间相关矩阵估计程序。

百度查询: 日本电信电话株式会社 空间相关矩阵估计装置、空间相关矩阵估计方法和记录介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。