买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】声源位置的确定方法、系统、设备和存储介质_北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司_201810367844.8 

申请/专利权人:北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司

申请日:2018-04-23

公开(公告)日:2024-04-05

公开(公告)号:CN110390947B

主分类号:G10L21/028

分类号:G10L21/028;G10L21/0216;G10L25/18;G10L25/21;G10L25/60;G01S5/22

优先权:

专利状态码:有效-授权

法律状态:2024.04.05#授权;2021.01.26#实质审查的生效;2019.10.29#公开

摘要:本发明公开了一种声源位置的确定方法、系统、设备和存储介质,所述确定方法包括:获取声源信号,并采用傅里叶变换算法获取所述声源信号的频谱信息;根据所述频谱信息获取每帧所述声源信号中的频率分布信息;根据所述频率分布信息计算每帧所述声源信号中的每个频点的第一权值;根据所述第一权值和所述频率分布信息获取所述声源信号中的每个频点的输出功率,确定最大输出功率的频点为产生所述声源信号的声源位置。本发明减少了目标权值与每帧声源信号的中的每个频点的语音能量分布的误差,提高了确定声源信号的声源位置的准确度。

主权项:1.一种声源位置的确定方法,其特征在于,所述确定方法包括:获取声源信号,并采用傅里叶变换算法获取所述声源信号的频谱信息;根据所述频谱信息获取每帧所述声源信号中的频率分布信息;其中,所述频率分布信息用于表征每帧所述声源信号的语音能量分布情况;根据所述频率分布信息计算每帧所述声源信号中的每个频点的第一权值;根据所述第一权值和所述频率分布信息获取所述声源信号中的每个频点的输出功率,确定最大输出功率的频点为产生所述声源信号的声源位置;所述根据所述第一权值和所述频率分布信息获取所述声源信号中的每个频点的输出功率的步骤之前还包括:根据所述频谱信息分别对所述声源信号进行噪声估计处理和混响估计处理,获取对应的噪声估计处理结果和混响估计处理结果;获取所述噪声估计处理结果和所述混响估计处理结果之间的信噪比;根据所述信噪比,对所述声源信号进行加权处理,获取所述声源信号在整个频率范围上的第二权值;将所述第一权值乘以所述第二权值获取每帧所述声源信号中的每个频点的目标权值;根据所述第一权值和所述频率分布信息获取所述声源信号中的每个频点的输出功率的步骤具体包括:根据所述目标权值和所述频率分布信息获取所述声源信号中的每个频点的输出功率。

全文数据:声源位置的确定方法、系统、设备和存储介质技术领域本发明涉及信号处理技术领域,特别涉及一种声源位置的确定方法、系统、设备和存储介质。背景技术现有技术中,为了获取产生声源信号的声源位置,一般通过基于可控波束形成的定向方法。具体地,对麦克风阵列所接收到的声源信号分别进行滤波和求加权值来表征波束,进而通过搜索声源信号可能的位置来引导该波束,最终使波束输出功率最大的点即声源信号的输出功率最大的点就是声源的位置。要实现这样一个波束形成器,一般会最大化一个简单的延迟求和波束形成器的输出能量。但是,该技术存在的问题是:输出能量的能量峰值非常宽,分辨率很差,即不能很好地区分出不同方向上的声源信号。而且,如果存在多个声源信号时,容易出现两个或多个输出能量的能量峰值产生混叠的现象,导致很难区分多个不同的声源信号。因此,一般在计算声源信号的输出能量之前,对麦克风阵列采集到的声源信号进行白化处理。然而,白化处理后虽然能产生更加锋利的能量峰值,但是,同样存在一个缺点:声源信号的频谱上的每一个频率对最终的频谱贡献度一样,即便存在信号在某频率主要由噪声控制的情况。因此,在确定声源位置时具有较大误差,存在不能准确获取声源位置的缺陷。发明内容本发明要解决的技术问题是为了克服现有技术中在确定声源位置时,容易出现在语音能量并不高的频点处,计算出的权值却很大,从而不能准确获取声源位置的等缺陷,目的在于提供一种声源位置的确定方法、系统、设备和存储介质。本发明是通过下述技术方案来解决上述技术问题:本发明提供一种声源位置的确定方法,所述确定方法包括:获取声源信号,并采用傅里叶变换算法获取所述声源信号的频谱信息;根据所述频谱信息获取每帧所述声源信号中的频率分布信息;其中,所述频率分布信息用于表征每帧所述声源信号的语音能量分布情况;根据所述频率分布信息计算每帧所述声源信号中的每个频点的第一权值;根据所述第一权值和所述频率分布信息获取所述声源信号中的每个频点的输出功率,确定最大输出功率的频点为产生所述声源信号的声源位置。可选地,所述获取声源信号的步骤具体包括:通过麦克风阵列获取声源信号;所述根据所述频率分布信息计算每帧所述声源信号中的每个频点的第一权值的步骤中,采用如下计算公式计算所述第一权值:i表示麦克风阵列中的第i个麦克风,n表示第n帧声源信号,k表示频点对应的频率值,表示第i个麦克风的第n帧声源信号的功率谱,f0为可调参数,表示第i个麦克风在第n帧声源信号的频率值为k的权值。可选地,所述根据所述第一权值和所述频率分布信息获取所述声源信号中的每个频点的输出功率的步骤具体包括:将所述声源信号在每个频点对应的所述第一权值乘以对应的语音能量获取所述声源信号中的每个频点的输出功率。可选地,所述根据所述第一权值和所述频率分布信息获取所述声源信号中的每个频点的输出功率的步骤之前还包括:根据所述频谱信息分别对所述声源信号进行噪声估计处理和混响估计处理,获取对应的噪声估计处理结果和混响估计处理结果;获取所述噪声估计处理结果和所述混响估计处理结果之间的信噪比;根据所述信噪比,对所述声源信号进行加权处理,获取所述声源信号在整个频率范围上的第二权值;将所述第一权值乘以所述第二权值获取每帧所述声源信号中的每个频点的目标权值;所述根据所述第一权值获取所述声源信号中的每个频点的输出功率的步骤具体包括:根据所述目标权值获取所述声源信号中的每个频点的输出功率。本发明还提供一种声源位置的确定系统,所述确定系统包括声源信号获取模块、频谱信息获取模块、频率信息获取模块、第一权值计算模块、输出功率获取模块和声源位置确定模块;所述声源信号获取模块用于获取声源信号,并调用所述频谱信息获取模块;所述频谱信息获取模块用于采用傅里叶变换算法获取所述声源信号的频谱信息;所述频率信息获取模块用于根据所述频谱信息获取每帧所述声源信号中的频率分布信息;其中,所述频率分布信息用于表征每帧所述声源信号的语音能量分布情况;所述第一权值计算模块用于根据所述频率分布信息计算每帧所述声源信号中的每个频点的第一权值;所述输出功率获取模块用于根据所述第一权值和所述频率分布信息获取所述声源信号中的每个频点的输出功率,并调用所述声源位置确定模块;所述声源位置确定模块用于确定最大输出功率的频点为产生所述声源信号的声源位置。可选地,所述声源信号获取模块还用于通过麦克风阵列获取声源信号;所述第一权值计算模块采用如下计算公式计算所述第一权值:i表示麦克风阵列中的第i个麦克风,n表示第n帧声源信号,k表示频点对应的频率值,表示第i个麦克风的第n帧声源信号的功率谱,f0为可调参数,表示第i个麦克风在第n帧声源信号的频率值为k的权值。可选地,所述输出功率获取模块还用于将所述声源信号在每个频点对应的所述第一权值乘以对应的语音能量获取所述声源信号中的每个频点的输出功率。可选地,所述确定系统还包括信号处理模块、信噪比获取模块、第二权值计算模块和目标权值获取模块;所述信号处理模块用于根据所述频谱信息分别对所述声源信号进行噪声估计处理和混响估计处理,获取对应的噪声估计处理结果和混响估计处理结果;所述信噪比获取模块获取所述噪声估计处理结果和所述混响估计处理结果之间的信噪比;所述第二权值计算模块用于根据所述信噪比,对所述声源信号进行加权处理,获取所述声源信号在整个频率范围上的第二权值;所述目标权值获取模块用于将所述第一权值乘以所述第二权值获取每帧所述声源信号中的每个频点的目标权值;所述输出功率获取模块还用于据所述目标权值获取所述声源信号中的每个频点的输出功率。本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行计算机程序时实现上述的声源位置的确定方法。本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的声源位置的确定方法的步骤。本发明的积极进步效果在于:本发明通过将声源信号在整个频率范围上的权值,和根据每帧声源信号中的频率分布信息计算的每帧声源信号中的每个频点的权值两者相乘,获取每帧声源信号中的每个频点的目标权值,进而确定声源信号的最大输出功率的频点为产生声源信号的声源位置,实现目标权值与每帧声源信号的中的每个频点的语音能量分布保持一致,从而减少了目标权值与每帧声源信号的中的每个频点的语音能量分布的误差,提高了确定声源信号的声源位置的准确度。附图说明图1为本发明实施例1的声源位置的确定方法的流程图;图2为本发明实施例2的声源位置的确定方法的流程图;图3为本发明实施例3的声源位置的确定方法的流程图;图4为本发明实施例3的声源位置的确定方法的第一数据分布图;图5为本发明实施例3的声源位置的确定方法的第二数据分布图;图6为本发明实施例3的声源位置的确定方法的第三数据分布图;图7为本发明实施例3的声源位置的确定方法的第四数据分布图;图8为本发明实施例4的声源位置的确定系统的模块示意图;图9为本发明实施例6的声源位置的确定系统的模块示意图。具体实施方式下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在的实施例范围之中。实施例1如图1所示,本实施例的声源位置的确定方法包括:S101、获取声源信号,并采用傅里叶变换算法获取声源信号的频谱信息;S102、根据频谱信息获取每帧声源信号中的频率分布信息;其中,频率分布信息用于表征每帧声源信号的语音能量分布情况;S103、根据频率分布信息计算每帧声源信号中的每个频点的第一权值;S104、根据第一权值和频率分布信息获取声源信号中的每个频点的输出功率,确定最大输出功率的频点为产生声源信号的声源位置。本实施例中,根据每帧声源信号中的频率分布信息,计算的每帧声源信号中的每个频点的权值,进而根据该权值和频率分布信息确定声源信号中的每个频点的输出功率,并确定最大输出功率的频点为产生声源信号的声源位置,实现该权值与每帧声源信号的中的每个频点的语音能量分布保持一致,从而减少了该权值与每帧声源信号的中的每个频点的语音能量分布的误差,提高了确定声源信号的声源位置的准确度。实施例2如图2所示,本实施例在实施例1的基础上作进一步改进,具体地:步骤S101具体包括:S1011、通过麦克风阵列获取声源信号,并采用傅里叶变换算法获取声源信号的频谱信息。步骤S103中采用如下计算公式计算第一权值:i表示麦克风阵列中的第i个麦克风,n表示第n帧声源信号,k表示频点对应的频率值,表示第i个麦克风的第n帧声源信号的功率谱,f0为可调参数,表示第i个麦克风在第n帧声源信号的频点对应的频率值为k的权值。该公式的主要目的在于,能将语音能量大的频点对应比较大的权值,语音能量小的频点对应较小的权值。由于人的语音是非平稳信号,即能量的变化范围比较大,而权值一般都会限制在[0,1]之间,因此,计算权值的函数设计应满足以下要求:当某频点的语音能量达到一定程度时,则权值基本保持不变,即权值相对于语音能量的变化不敏感;当某频点的语音能量比较小的时候,权值的变化相对于语音能量的变化会比较敏感。其中f0为可调参数,可以根据实际的环境包括系统硬件或环境噪声等影响因素调节输出效果。步骤S104具体包括:S1041、将声源信号在每个频点对应的第一权值乘以对应的语音能量获取声源信号中的每个频点的输出功率;S1042、确定最大输出功率的频点为产生声源信号的声源位置。本实施例中,根据每帧声源信号中的频率分布信息,计算的每帧声源信号中的每个频点的权值,进而根据该权值和频率分布信息确定声源信号中的每个频点的输出功率,并确定最大输出功率的频点为产生声源信号的声源位置,实现该权值与每帧声源信号的中的每个频点的语音能量分布保持一致,从而减少了该权值与每帧声源信号的中的每个频点的语音能量分布的误差,提高了确定声源信号的声源位置的准确度。实施例3如图3所示,本实施例在实施例2的基础上作进一步改进,具体地:步骤S104之前还包括:S1031、根据频谱信息分别对声源信号进行噪声估计处理和混响估计处理,获取对应的噪声估计处理结果和混响估计处理结果;其中,噪声估计处理是对第i个麦克风的噪声采用MCRA基于最小统计量的噪声估计技术进行噪声估计,它会在低能量时段自适应地进行噪声估计。具体地,MCRA技术用于在语音信号的寂静段,追踪频点处能量的最小值,并对该最小值进行噪声估计,同时语音段保持输出不变。对于混响估计,主要采用简单的指数衰减混响模型,模型公式定义如下:其中,是麦克风阵列中的第i个麦克风在第n帧的频率值为k的混响信号,γ表示声音空间的混响衰减系数,δ表示混响等级,为n-1帧的谱加权函数值,表示第n-1帧的功率谱。S1032、获取噪声估计处理结果和混响估计处理结果之间的信噪比;信噪比的计算公式如下:其中,表示麦克风阵列中的第i个麦克风在第n帧频率k处的先验信噪比,ad表示自适应率,表示第n帧的功率谱,表示总的噪声方差,表示静态噪声方差。S1033、根据信噪比,对声源信号进行加权处理,获取声源信号在整个频率范围上的第二权值;采用谱加权函数的计算第二权值的公式如下:其中,表示第二权值。对于第二权值,是基于对信噪比进行加权的方法获得声源信号在整个频率范围上的权值,这对噪声估计提出了较高的要求,其中,噪声估计的精度与系统的硬件,语音环境以及噪声估计算法优劣等都有关系。当噪声估计不准确时,会导致先验信噪比计算有较大的误差,进而导致在相应频点处的权值有较大的误差。当仅仅通过第二权值来确定声源位置时,如图4和图5所示,图4为声源信号中的某一帧语音信号的各频点的功率谱分布图。其中,横轴表示频率值,纵轴表示信号幅值。图5为该帧语音信号的各频点的第二权值。其中,横轴表示频率值,纵轴表示第二权值。结合图4和图5可知,在有些语音能量并不高的频点处,计算出的权值却很大,从而造成不能准确获取声源位置。其原因在于,此时对语音信号的各频点的权值的计算是针对整个频率范围的情况,没有考虑语音信号是一种非平稳且频率分布范围较宽的信号,其短时每帧的频率分布情况与不同的人、语音的内容等因素有关,并不属于分布于整个频率范围的情况。因此,需要将第一权值和第二权值相结合,来提高确定声源信号的声源位置的准确度。S1034、将第一权值乘以第二权值获取每帧声源信号中的每个频点的目标权值,计算公式如下:其中,表示每帧声源信号中的每个频点的目标权值。步骤S1041具体包括:S10411、根据目标权值获取声源信号中的每个频点的输出功率。如图6所示,横轴表示第i个麦克风的第n帧频率值k的语音能量值纵轴表示目标权值。其中,横轴可以根据10logy将单位转换成DB分贝,y为横轴的读数。由图6可知,在语音能量比较低的时候小于10,目标权值的变化相对能量变化比较敏感,当语音能量比较高的时候,目标权值变化比较慢。如图7所示,横轴表示第i个麦克风的第n帧频率值k,纵轴表示目标权值。其中,图4、图5和图7中的横轴均可经过公式:x-1*FsN,将单位转换为Hz赫兹;x为横轴的读数,Fs为声源信号的采样率,N为傅里叶变换使用的数据长度;这些图中,Fs取值为48000,N取值为1024。由图7可知,能将语音能量大的频点对应比较大的权值,语音能量小的频点对应较小的权值,相对于图5中每帧声源信号中的各个频点对应的第二权值,实现对某些语音能量分布不强的频点的权值进行有效抑制,从而,提高了确定声源信号的声源位置的准确度。本实施例中,通过将声源信号在整个频率范围上的权值,和根据每帧声源信号中的频率分布信息计算的每帧声源信号中的每个频点的权值两者相乘,获取每帧声源信号中的每个频点的目标权值,进而确定声源信号的最大输出功率的频点为产生声源信号的声源位置,实现目标权值与每帧声源信号的中的每个频点的语音能量分布保持一致,从而减少了目标权值与每帧声源信号的中的每个频点的语音能量分布的误差,提高了确定声源信号的声源位置的准确度。实施例4如图8所示,本实施例的声源位置的确定系统包括声源信号获取模块1、频谱信息获取模块2、频率信息获取模块3、第一权值计算模块4、输出功率获取模块5和声源位置确定模块6。声源信号获取模块1用于获取声源信号,并调用频谱信息获取模块2;频谱信息获取模块2用于采用傅里叶变换算法获取声源信号的频谱信息;频率信息获取模块3用于根据频谱信息获取每帧声源信号中的频率分布信息;其中,频率分布信息用于表征每帧声源信号的语音能量分布情况;第一权值计算模块4用于根据频率分布信息计算每帧声源信号中的每个频点的第一权值;输出功率获取模块5用于根据第一权值和频率分布信息获取声源信号中的每个频点的输出功率,并调用声源位置确定模块6;声源位置确定模块6用于确定最大输出功率的频点为产生声源信号的声源位置。本实施例中,根据每帧声源信号中的频率分布信息,计算的每帧声源信号中的每个频点的权值,进而根据该权值和频率分布信息确定声源信号中的每个频点的输出功率,并确定最大输出功率的频点为产生声源信号的声源位置,实现该权值与每帧声源信号的中的每个频点的语音能量分布保持一致,从而减少了该权值与每帧声源信号的中的每个频点的语音能量分布的误差,提高了确定声源信号的声源位置的准确度。实施例5如图8所示,本实施例在实施例4的基础上作进一步改进,具体地:声源信号获取模块1还用于通过麦克风阵列获取声源信号。第一权值计算模块4采用如下计算公式计算第一权值:i表示麦克风阵列中的第i个麦克风,n表示第n帧声源信号,k表示频点对应的频率值,表示第i个麦克风的第n帧声源信号的功率谱,f0为可调参数,表示第i个麦克风在第n帧声源信号的频点对应的频率值为k的权值。该公式的主要目的在于,能将语音能量大的频点对应比较大的权值,语音能量小的频点对应较小的权值。由于人的语音是非平稳信号,即能量的变化范围比较大,而权值一般都会限制在[0,1]之间,因此,计算权值的函数设计应满足以下要求:当某频点的语音能量达到一定程度时,则权值基本保持不变,即权值相对于语音能量的变化不敏感;当某频点的语音能量比较小的时候,权值的变化相对于语音能量的变化会比较敏感。其中f0为可调参数,可以根据实际的环境包括系统硬件或环境噪声等影响因素调节输出效果。输出功率获取模块5还用于将声源信号在每个频点对应的第一权值乘以对应的语音能量获取声源信号中的每个频点的输出功率。本实施例中,根据每帧声源信号中的频率分布信息,计算的每帧声源信号中的每个频点的权值,进而根据该权值和频率分布信息确定声源信号中的每个频点的输出功率,并确定最大输出功率的频点为产生声源信号的声源位置,实现该权值与每帧声源信号的中的每个频点的语音能量分布保持一致,从而减少了该权值与每帧声源信号的中的每个频点的语音能量分布的误差,提高了确定声源信号的声源位置的准确度。实施例6如图9所示,本实施例在实施例5的基础上作进一步改进,具体地:本实施例的声源位置的确定系统还包括信号处理模块7、信噪比获取模块8、第二权值计算模块9和目标权值获取模块10。信号处理模块7用于根据频谱信息分别对声源信号进行噪声估计处理和混响估计处理,获取对应的噪声估计处理结果和混响估计处理结果。其中,噪声估计处理是对第i个麦克风的噪声采用MCRA技术进行噪声估计,它会在低能量时段自适应地进行噪声估计。具体地,MCRA技术用于在语音信号的寂静段,追踪频点处能量的最小值,并对该最小值进行噪声估计,同时语音段保持输出不变。对于混响估计,主要采用简单的指数衰减混响模型,模型公式定义如下:其中,是麦克风阵列中的第i个麦克风在第n帧的频率值为k的混响信号,γ表示声音空间的混响衰减系数,δ表示混响等级,为n-1帧的谱加权函数值,表示第n-1帧的功率谱。信噪比获取模块8获取噪声估计处理结果和混响估计处理结果之间的信噪比。信噪比的计算公式如下:其中,表示麦克风阵列中的第i个麦克风在第n帧频率k处的先验信噪比,ad表示自适应率,表示第n帧的功率谱,表示总的噪声方差,表示静态噪声方差。第二权值计算模块9用于根据信噪比,对声源信号进行加权处理,获取声源信号在整个频率范围上的第二权值。采用谱加权函数的计算第二权值的公式如下:其中,表示第二权值。对于第二权值,是基于对信噪比进行加权的方法获得声源信号在整个频率范围上的权值,这对噪声估计提出了较高的要求,其中,噪声估计的精度与系统的硬件,语音环境以及噪声估计算法优劣等都有关系。当噪声估计不准确时,会导致先验信噪比计算有较大的误差,进而导致在相应频点处的权值有较大的误差。当仅仅通过第二权值来确定声源位置时,如图4和图5所示,图4为声源信号中的某一帧语音信号的各频点的功率谱分布图。其中,横轴表示频率值,纵轴表示信号幅值。图5为该帧语音信号的各频点的第二权值。其中,横轴表示频率值,纵轴表示第二权值。结合图4和图5可知,在有些语音能量并不高的频点处,计算出的权值却很大,从而造成不能准确获取声源位置。其原因在于,此时对语音信号的各频点的权值的计算是针对整个频率范围的情况,没有考虑语音信号是一种非平稳且频率分布范围较宽的信号,其短时每帧的频率分布情况与不同的人、语音的内容等因素有关,并不属于分布于整个频率范围的情况。因此,需要将第一权值和第二权值相结合,来提高确定声源信号的声源位置的准确度。目标权值获取模块10用于将第一权值乘以第二权值获取每帧声源信号中的每个频点的目标权值,计算公式如下:其中,表示每帧声源信号中的每个频点的目标权值。输出功率获取模块5还用于据目标权值获取声源信号中的每个频点的输出功率。如图6所示,横轴表示第i个麦克风的第n帧频率值k的语音能量值纵轴表示目标权值。其中,横轴可以根据10logy将单位转换成DB分贝,y为横轴的读数。由图6可知,在语音能量比较低的时候小于10,目标权值的变化相对能量变化比较敏感,当语音能量比较高的时候,目标权值变化比较慢。如图7所示,横轴表示第i个麦克风的第n帧频率值k,纵轴表示目标权值。其中,图4、图5和图7中的横轴均可经过公式:x-1*FsN,将单位转换为Hz赫兹;x为横轴的读数,Fs为声源信号的采样率,N为傅里叶变换使用的数据长度;这些图中,Fs取值为48000,N取值为1024。由图7可知,能将语音能量大的频点对应比较大的权值,语音能量小的频点对应较小的权值,相对于图5中每帧声源信号中的各个频点对应的第二权值,图7中实现对某些语音能量分布不强的频点的权值进行有效抑制,因此提高了确定声源信号的声源位置的准确度。本实施例中,通过将声源信号在整个频率范围上的权值,和根据每帧声源信号中的频率分布信息计算的每帧声源信号中的每个频点的权值两者相乘,获取每帧声源信号中的每个频点的目标权值,进而确定声源信号的最大输出功率的频点为产生声源信号的声源位置,实现目标权值与每帧声源信号的中的每个频点的语音能量分布保持一致,从而减少了目标权值与每帧声源信号的中的每个频点的语音能量分布的误差,提高了确定声源信号的声源位置的准确度。实施例7本实施例的电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现实施例1-3中的任意一个实施例中的声源位置的确定方法。实施例8本实施例的计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现实施例1-3中的任意一个实施例中的声源位置的确定方法的步骤。其中,可读存储介质可以采用的更具体可以包括但不限于:便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。在可能的实施方式中,本发明还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在终端设备上运行时,程序代码用于使终端设备执行实现实施例1-3中的任意一个实施例中的声源位置的确定方法的步骤。其中,可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码,程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这些仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式作出多种变更或修改,但这些变更和修改均落入本发明的保护范围。

权利要求:1.一种声源位置的确定方法,其特征在于,所述确定方法包括:获取声源信号,并采用傅里叶变换算法获取所述声源信号的频谱信息;根据所述频谱信息获取每帧所述声源信号中的频率分布信息;其中,所述频率分布信息用于表征每帧所述声源信号的语音能量分布情况;根据所述频率分布信息计算每帧所述声源信号中的每个频点的第一权值;根据所述第一权值和所述频率分布信息获取所述声源信号中的每个频点的输出功率,确定最大输出功率的频点为产生所述声源信号的声源位置。2.如权利要求1所述的声源位置的确定方法,其特征在于,所述获取声源信号的步骤具体包括:通过麦克风阵列获取声源信号;所述根据所述频率分布信息计算每帧所述声源信号中的每个频点的第一权值的步骤中,采用如下计算公式计算所述第一权值:i表示麦克风阵列中的第i个麦克风,n表示第n帧声源信号,k表示频点对应的频率值,表示第i个麦克风的第n帧声源信号的功率谱,f0为可调参数,表示第i个麦克风在第n帧声源信号的频点对应的频率值为k的权值。3.如权利要求1所述的声源位置的确定方法,其特征在于,所述根据所述第一权值和所述频率分布信息获取所述声源信号中的每个频点的输出功率的步骤具体包括:将所述声源信号在每个频点对应的所述第一权值乘以对应的语音能量获取所述声源信号中的每个频点的输出功率。4.如权利要求1所述的声源位置的确定方法,其特征在于,所述根据所述第一权值和所述频率分布信息获取所述声源信号中的每个频点的输出功率的步骤之前还包括:根据所述频谱信息分别对所述声源信号进行噪声估计处理和混响估计处理,获取对应的噪声估计处理结果和混响估计处理结果;获取所述噪声估计处理结果和所述混响估计处理结果之间的信噪比;根据所述信噪比,对所述声源信号进行加权处理,获取所述声源信号在整个频率范围上的第二权值;将所述第一权值乘以所述第二权值获取每帧所述声源信号中的每个频点的目标权值;所述根据所述第一权值获取所述声源信号中的每个频点的输出功率的步骤具体包括:根据所述目标权值获取所述声源信号中的每个频点的输出功率。5.一种声源位置的确定系统,其特征在于,所述确定系统包括声源信号获取模块、频谱信息获取模块、频率信息获取模块、第一权值计算模块、输出功率获取模块和声源位置确定模块;所述声源信号获取模块用于获取声源信号,并调用所述频谱信息获取模块;所述频谱信息获取模块用于采用傅里叶变换算法获取所述声源信号的频谱信息;所述频率信息获取模块用于根据所述频谱信息获取每帧所述声源信号中的频率分布信息;其中,所述频率分布信息用于表征每帧所述声源信号的语音能量分布情况;所述第一权值计算模块用于根据所述频率分布信息计算每帧所述声源信号中的每个频点的第一权值;所述输出功率获取模块用于根据所述第一权值和所述频率分布信息获取所述声源信号中的每个频点的输出功率,并调用所述声源位置确定模块;所述声源位置确定模块用于确定最大输出功率的频点为产生所述声源信号的声源位置。6.如权利要求5所述的声源位置的确定系统,其特征在于,所述声源信号获取模块还用于通过麦克风阵列获取声源信号;所述第一权值计算模块采用如下计算公式计算所述第一权值:i表示麦克风阵列中的第i个麦克风,n表示第n帧声源信号,k表示频点对应的频率值,表示第i个麦克风的第n帧声源信号的功率谱,f0为可调参数,表示第i个麦克风在第n帧声源信号的频点对应的频率值为k的权值。7.如权利要求5所述的声源位置的确定系统,其特征在于,所述输出功率获取模块还用于将所述声源信号在每个频点对应的所述第一权值乘以对应的语音能量获取所述声源信号中的每个频点的输出功率。8.如权利要求5所述的声源位置的确定系统,其特征在于,所述确定系统还包括信号处理模块、信噪比获取模块、第二权值计算模块和目标权值获取模块;所述信号处理模块用于根据所述频谱信息分别对所述声源信号进行噪声估计处理和混响估计处理,获取对应的噪声估计处理结果和混响估计处理结果;所述信噪比获取模块获取所述噪声估计处理结果和所述混响估计处理结果之间的信噪比;所述第二权值计算模块用于根据所述信噪比,对所述声源信号进行加权处理,获取所述声源信号在整个频率范围上的第二权值;所述目标权值获取模块用于将所述第一权值乘以所述第二权值获取每帧所述声源信号中的每个频点的目标权值;所述输出功率获取模块还用于据所述目标权值获取所述声源信号中的每个频点的输出功率。9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行计算机程序时实现权利要求1-4中任一项所述的声源位置的确定方法。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-4中任一项所述的声源位置的确定方法的步骤。

百度查询: 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 声源位置的确定方法、系统、设备和存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。