买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】语音降噪的方法和装置、计算设备和计算机可读存储介质_腾讯科技(深圳)有限公司_201811548802.0 

申请/专利权人:腾讯科技(深圳)有限公司

申请日:2018-12-18

公开(公告)日:2022-11-25

公开(公告)号:CN110164467B

主分类号:G10L21/0216

分类号:G10L21/0216

优先权:

专利状态码:有效-授权

法律状态:2022.11.25#授权;2020.12.11#实质审查的生效;2019.08.23#公开

摘要:本发明公开了一种语音降噪的方法和装置、计算设备和计算机可读存储介质。该方法包括:获取带噪语音信号,所述带噪语音信号包括纯净语音信号和噪声信号;估计所述带噪语音信号的后验信噪比和先验信噪比;基于所估计的后验信噪比和所估计的先验信噪比在Bark域中确定语音噪声似然比;基于所确定的语音噪声似然比估计先验语音存在概率;基于所估计的后验信噪比、所估计的先验信噪比以及所估计的先验语音存在概率来确定增益,所述增益为用于将所述带噪语音信号变换成所述纯净语音信号的估计的频域传递函数;并且基于所述增益从所述带噪语音信号导出所述纯净语音信号的所述估计。该方法可以提升判断语音是否出现的准确率。

主权项:1.一种计算机实现的语音降噪方法,包括:获取带噪语音信号,所述带噪语音信号包括纯净语音信号和噪声信号;估计所述带噪语音信号的后验信噪比和先验信噪比;基于所估计的后验信噪比和所估计的先验信噪比在Bark域中确定语音噪声似然比;基于所确定的语音噪声似然比估计先验语音存在概率;基于所估计的后验信噪比、所估计的先验信噪比以及所估计的先验语音存在概率来确定增益,所述增益为用于将所述带噪语音信号变换成所述纯净语音信号的估计的频域传递函数;并且基于所述增益从所述带噪语音信号导出所述纯净语音信号的所述估计。

全文数据:语音降噪的方法和装置、计算设备和计算机可读存储介质技术领域本发明涉及语音处理技术领域,具体来说涉及一种语音降噪方法、语音降噪装置、计算设备和计算机可读存储介质。背景技术在传统的语音降噪技术中通常存在两种处理方式。一种方式是在每个频点上都估计一个先验语音存在概率。在这种情况下,对于识别器而言在时间上和频率上的维纳增益波动越小,一般识别率越高;如果维纳增益波动比较大,反而会引入一些音乐噪声,可能导致识别率变差。另一种方式是使用全局的先验语音存在概率。这种方式比起前者而言在求取维纳增益时更加鲁棒。然而,仅依赖全部频点上的先验信噪比来估计先验语音存在概率,可能不能很好地区分包含语音和噪声两者的帧和只含有噪声的帧。发明内容提供一种可以缓解、减轻或甚至消除上述问题中的一个或多个的机制将是有利的。根据本发明的第一方面,提供了一种计算机实现的语音降噪方法,包括:获取带噪语音信号,所述带噪语音信号包括纯净语音信号和噪声信号;估计所述带噪语音信号的后验信噪比和先验信噪比;基于所估计的后验信噪比和所估计的先验信噪比在Bark域中确定语音噪声似然比;基于所确定的语音噪声似然比估计先验语音存在概率;基于所估计的后验信噪比、所估计的先验信噪比以及所估计的先验语音存在概率来确定增益,所述增益为用于将所述带噪语音信号变换成所述纯净语音信号的估计的频域传递函数;并且基于所述增益从所述带噪语音信号导出所述纯净语音信号的所述估计。在一些示例性实施例中,所述估计所述带噪语音信号的先验信噪比和后验信噪比包括:执行第一噪声估计,其中得到所述噪声信号的方差的第一估计;利用所述噪声信号的方差的所述第一估计来估计所述后验信噪比;并且利用所估计的后验信噪比来估计所述先验信噪比。在一些示例性实施例中,所述执行第一噪声估计包括:对所述带噪语音信号的能量谱在频域和时域上进行平滑;对经平滑的所述能量谱执行最小跟踪估计;并且取决于经平滑的所述能量谱与该经平滑的所述能量谱的最小跟踪估计的比值,利用所述带噪语音信号的上一帧中的所述噪声信号的方差的所述第一估计和所述带噪语音信号的当前帧的所述能量谱来选择性地更新所述带噪语音信号的当前帧中的所述噪声信号的方差的所述第一估计。在一些示例性实施例中,所述选择性地更新包括:响应于所述比值大于或等于第一阈值而执行所述更新;并且响应于所述比值小于所述第一阈值而不执行所述更新。在一些示例性实施例中,所述在Bark域中确定语音噪声似然比包括:基于高斯概率密度假设,将所述语音噪声似然比计算为,其中为所述带噪语音信号的第帧在第个频点上的所述语音噪声似然比,为所述第帧在所述第个频点上的所估计的先验信噪比,并且为所述第帧在所述第个频点上的所估计的后验信噪比;并且通过将和从线性频域转换到Bark域而将变换为,其中b为Bark域中的频点。在一些示例性实施例中,从线性频域到Bark域的所述转换基于以下等式:,其中为所述线性频域中的频率。在一些示例性实施例中,所述估计先验语音存在概率包括:在对数域中将平滑为,其中为平滑因子;并且通过在Bark域的全带中映射而得到所估计的所述先验语音存在概率。在一些示例性实施例中,所述映射为,其中为所估计的先验语音存在概率。在一些示例性实施例中,所述方法还包括:独立于所述第一噪声估计执行第二噪声估计,其中得到所述噪声信号的方差的第二估计;并且取决于所述噪声信号的方差的所述第一估计在预定频率范围内的量值之和,利用所述噪声信号的方差的所述第二估计来选择性地重新估计所述后验信噪比和所述先验信噪比。所述确定增益包括:响应于所述重新估计被执行而基于所重新估计的后验信噪比、所重新估计的先验信噪比以及所估计的先验语音存在概率来确定所述增益。在一些示例性实施例中,所述执行第二噪声估计包括:取决于所估计的先验语音存在概率,利用所述带噪语音信号的上一帧中的所述噪声信号的方差的所述第二估计和所述带噪语音信号的当前帧的能量谱来选择性地更新所述当前帧中的所述噪声信号的方差的所述第二估计。在一些示例性实施例中,所述选择性地更新包括:响应于所估计的先验语音存在概率大于或等于第二阈值而执行所述更新;并且响应于所估计的先验语音存在概率小于所述第二阈值而不执行所述更新。在一些示例性实施例中,所述选择性地重新估计所述先验信噪比和所述后验信噪比包括:响应于所述噪声信号的方差的所述第一估计在所述预定频率范围内的所述量值之和大于或等于第三阈值而执行所述重新估计;并且响应于所述噪声信号的方差的所述第一估计在所述预定频率范围内的所述量值之和小于所述第三阈值而不执行所述重新估计。根据本发明的另一方面,提供了一种语音降噪装置,包括:信号获取模块,被配置成获取带噪语音信号,所述带噪语音信号包括纯净语音信号和噪声信号;信噪比估计模块,被配置成估计所述带噪语音信号的先验信噪比和后验信噪比;似然比确定模块,被配置成基于所估计的先验信噪比和所估计的后验信噪比在Bark域中确定语音噪声似然比;概率估计模块,被配置成基于所确定的语音噪声似然比估计先验语音存在概率;增益确定模块,被配置成基于所估计的先验信噪比、所估计的后验信噪比以及所估计的先验语音存在概率来确定增益,所述增益为用于将所述带噪语音信号变换成所述纯净语音信号的估计的频域传递函数;以及语音信号导出模块,被配置成基于所述增益从所述带噪语音信号导出所述纯净语音信号的所述估计。在一些示例性实施例中,所述信噪比估计模块被配置成通过以下操作来估计所述带噪语音信号的先验信噪比和后验信噪比:执行第一噪声估计,其中得到所述噪声信号的方差的第一估计;利用所述噪声信号的方差的所述第一估计来估计所述后验信噪比;并且利用所估计的后验信噪比来估计所述先验信噪比。在一些示例性实施例中,所述信噪比估计模块被配置成通过以下操作来执行第一噪声估计:对所述带噪语音信号的能量谱在频域和时域上进行平滑;对经平滑的所述能量谱执行最小跟踪估计;并且取决于经平滑的所述能量谱与该经平滑的所述能量谱的最小跟踪估计的比值,利用所述带噪语音信号的上一帧中的所述噪声信号的方差的所述第一估计和所述带噪语音信号的当前帧的所述能量谱来选择性地更新所述带噪语音信号的当前帧中的所述噪声信号的方差的所述第一估计。在一些示例性实施例中,所述信噪比估计模块被配置成响应于所述比值大于或等于第一阈值而执行所述更新,并且响应于所述比值小于所述第一阈值而不执行所述更新。在一些示例性实施例中,所述似然比确定模块被配置成通过以下操作来在Bark域中确定语音噪声似然比:基于高斯概率密度假设,将所述语音噪声似然比计算为,其中为所述带噪语音信号的第帧在第个频点上的所述语音噪声似然比,为所述第帧在所述第个频点上的所估计的先验信噪比,并且为所述第帧在所述第个频点上的所估计的后验信噪比;并且通过将和从线性频域转换到Bark域而将变换为,其中b为Bark域中的频点。在一些示例性实施例中,所述概率估计模块被配置成通过以下操作来估计先验语音存在概率:在对数域中将平滑为,其中为平滑因子;并且通过在Bark域的全带中映射而得到所估计的所述先验语音存在概率。在一些示例性实施例中,所述信噪比估计模块还被配置成独立于所述第一噪声估计执行第二噪声估计,其中得到所述噪声信号的方差的第二估计;并且取决于所述噪声信号的方差的所述第一估计在预定频率范围内的量值之和,利用所述噪声信号的方差的所述第二估计来选择性地重新估计所述后验信噪比和所述先验信噪比。所述增益确定模块还被配置成响应于所述重新估计被执行而基于所重新估计的后验信噪比、所重新估计的先验信噪比以及所估计的先验语音存在概率来确定所述增益。在一些示例性实施例中,所述信噪比估计模块被配置成响应于所述噪声信号的方差的所述第一估计在所述预定频率范围内的所述量值之和大于或等于第三阈值而执行所述重新估计,并且响应于所述噪声信号的方差的所述第一估计在所述预定频率范围内的所述量值之和小于所述第三阈值而不执行所述重新估计。在一些示例性实施例中,所述信噪比估计模块被配置成通过以下操作来执行第二噪声估计:取决于所估计的先验语音存在概率,利用所述带噪语音信号的上一帧中的所述噪声信号的方差的所述第二估计和所述带噪语音信号的当前帧的能量谱来选择性地更新所述带噪语音信号的当前帧中的所述噪声信号的方差的所述第二估计。在一些示例性实施例中,所述信噪比估计模块被配置成响应于所估计的先验语音存在概率大于或等于第二阈值而执行所述更新,并且响应于所估计的先验语音存在概率小于所述第二阈值而不执行所述更新。根据本发明的又另一方面,提供了一种计算设备,包括处理器和存储器,所述存储器被配置成存储计算机程序,所述计算机程序被配置成当在所述处理器上执行时使所述处理器执行如上所述的方法。根据本发明的再另一方面,提供了一种计算机可读存储介质,被配置成存储计算机程序,所述计算机程序被配置成当在处理器上执行时使所述处理器执行如上所述的方法。根据在下文中所描述的实施例,本发明的这些和其它方面将是清楚明白的,并且将参考在下文中所描述的实施例而被阐明。附图说明在下面结合附图对于示例性实施例的描述中,本发明的更多细节、特征和优点被公开,在附图中:图1图示了根据本发明实施例的语音降噪方法的流程图;图2更详细地图示了图1的方法中执行第一噪声估计的步骤;图3更详细地图示了图1的方法中确定语音噪声似然比的步骤;图4更详细地图示了图1的方法中估计先验语音存在概率的步骤;图5a、5b和5c分别图示了一个示例的原始带噪语音信号、利用现有技术从该原始带噪语音信号导出的纯净语音信号的估计、以及利用图1的方法从该原始带噪语音信号导出的纯净语音信号的估计的相应语谱图;图6图示了根据本发明另一实施例的语音降噪方法的流程图;图7图示了其中可以应用图6的方法的典型应用场景中的示例处理流程;图8图示了根据本发明实施例的语音降噪装置的框图;并且图9一般地图示了一个示例系统,其包括代表可以实现本文描述的各种技术的一个或多个系统和或设备的示例计算设备。具体实施方式本发明的构思基于信号处理理论。设和分别表示纯净(即,无噪声)语音信号和不相关的加性噪声,则观察信号(下文中称为“带噪语音信号”)可以表示为:。带噪语音信号进行短时傅里叶变换得到频谱,其中表示频点,表示时间帧的序号。设为纯净语音信号的频谱,那么通过估计增益可以得到估计的纯净语音信号的频谱为,其中增益为用于将带噪语音信号变换成所述纯净语音信号的估计的频域传递函数。然后,通过逆短时傅里叶变换即可得到估计的纯净语音的时域信号。给出两个假设和,分别表示语音不存在的事件和语音存在的事件,那么有如下表达式:,其中表示噪声信号的短时傅里叶频谱。假设在频域中带噪语音信号服从高斯分布:和,根据该条件概率分布和贝叶斯假设,可以得到语音存在概率为:,其中,,,为带噪语音信号的第帧在第个频点上的语音方差,并且为第帧在第个频点上的噪声方差。和分别表示第帧在第个频点上的先验信噪比和后验信噪比,是先验语音不存在概率,并且即先验语音存在概率。我们使用log频谱幅度估计对纯净语音信号的频谱幅度进行估计:,并且基于高斯模型假设可以得到增益,其中,并且是经验值,其用于当语音不存在的时候限制增益不低于某个阈值。求解增益涉及到对先验信噪比、噪声方差和先验语音不存在概率进行估计。图1图示了根据本发明实施例的语音降噪方法100的流程图。在步骤110处,获取带噪语音信号。取决于应用场景,带噪语音信号的获取可以通过各种不同的方式实现。在一些实施例中,它可以通过IO接口,例如麦克风,从说话人直接获取。在一些实施例中,它可以经由有线或无线网络或者移动电信网络从远程设备接收。在一些实施例中,它还可以从本地存储器中缓冲或存储的语音数据记录中检索得到。所获取的带噪语音信号经短时傅里叶变换被变换成频谱以供处理,这是信号处理技术领域中熟知的。在步骤120处,估计所述带噪语音信号的后验信噪比和先验信噪比。在该实施例中,这可以通过如下所述的步骤122~126实现。在步骤122处,执行第一噪声估计,其中得到所述噪声信号的方差的第一估计。图2更详细地图示了如何执行第一噪声估计。参考图2,在步骤122a处,对所述带噪语音信号的能量谱在频域进行平滑:,其中是长度为的窗。然后,进行时域平滑,得到,其中是平滑因子。在步骤122b处,对经平滑的所述能量谱执行最小跟踪估计。具体地,进行如下最小跟踪估计:,其中和的初始值取为。经过L帧之后,最小跟踪估计的表达式在第L+1帧被更新为。然后,对于从第L+2帧到第2L+1帧的L个帧,最小跟踪估计的表达式恢复为。在第2L+1帧,最小跟踪估计的表达式再次被更新为。然后,对于随后的L个帧,最小跟踪估计的表达式再次恢复为,并且以此类推。也即,最小跟踪估计的表达式以L+1帧为周期被周期性地更新。在步骤122c处,取决于经平滑的所述能量谱与该经平滑的所述能量谱的最小跟踪估计的比值,即,利用所述带噪语音信号的上一帧中的所述噪声信号的方差的所述第一估计和所述带噪语音信号的当前帧的所述能量谱来选择性地更新所述当前帧中的所述噪声信号的方差的所述第一估计。具体地,如果比值大于或等于第一阈值就执行更新,并且如果比值小于该第一阈值就不更新。噪声估计更新公式为:,其中是平滑因子。在工程实践中,所获取的带噪语音信号的起始的若干帧可以被估计为噪声信号的初始值。返回参考图1,在步骤124处,利用所述噪声信号的方差的所述第一估计来估计所述后验信噪比。在步骤122中得到估计的噪声信号的方差之后,后验信噪比的估计可以计算为。在步骤126处,利用所估计的后验信噪比来估计所述先验信噪比。在该实施例中,先验信噪比估计可以使用面向判决的(decision-directed,DD)估计:。DD估计本身是本领域中已知的,其中表示上一帧的先验信噪比的估计,是基于当前帧对先验信噪比的最大似然估计,并且是这两种估计的平滑因子。由此,得到估计的先验信噪比。在步骤130处,基于所估计的后验信噪比和所估计的先验信噪比在Bark域中确定语音噪声似然比。似然比公式为,其中为第帧在第个频点上的幅度谱,为第帧在第个频点假设是语音的状态,为第帧在第个频点假设是噪声的状态,为在语音存在的情况下的概率密度,并且为在噪声存在的情况下的概率密度。图3更详细地图示了如何确定语音噪声似然比。参考图3,在步骤132处,对概率密度做高斯概率密度函数(PDF)假设,似然比公式可变成:。在步骤134处,将先验信噪比和后验信噪比从线性频域转换到Bark域。Bark域是使用听觉滤波器模拟出的听觉的24个临界频带,并且因此具有24个频点。存在多种方式从线性频域转换到Bark域。在该实施例中,该转换可以基于以下等式:,其中为所述线性频域中的频率,并且表示为Bark域中的24个频点。由此,在Bark域上的似然比公式可表达为。返回参考图1,在步骤140处,基于所确定的语音噪声似然比估计先验语音存在概率。图4更详细地图示了如何估计先验语音存在概率。参考图4,在步骤142处,在对数域中将平滑为,其中为平滑因子。在步骤144处,通过在Bark域的全带中映射而得到所估计的先验语音存在概率。在该实施例中,函数tanh可以被用于所述映射,得到,其中为所估计的先验语音存在概率,也即具体实施方式的开头段落中提到的先验语音存在概率的估计。在该实施例中函数tanh被使用是因为它能将区间映射为0-1的区间,尽管其他实施例是可能的。与现有技术的语音降噪方案相比,方法100被预期在判断是否有语音出现方面更加准确。这是因为(1)语音噪声似然比能很好地区分有语音出现的状态和没有语音出现的状态,并且(2)Bark域相比于线性频域更符合人耳的听觉掩蔽效应。Bark域具有对低频的放大作用和对高频的压缩作用,能更清晰地揭示哪些信号容易产生掩蔽和哪些噪声比较明显。因此,方法100可以提升判断语音是否出现的准确率,从而得到更准确的先验语音存在概率。返回参考图1,在步骤150处,基于在步骤124中得到的所估计的后验信噪比、在步骤126中得到的所估计的先验信噪比以及在步骤140中得到的所估计的先验语音存在概率来确定增益。这可以通过具体实施方式的开头段落中提到的以下等式来实现:,其中,以及,其中。在步骤160处,基于增益从所述带噪语音信号导出所述纯净语音信号的所述估计。具体地,通过可以得到估计的纯净语音信号的频谱,并且然后通过逆短时傅里叶变换即可得到估计的纯净语音的时域信号。图5a、5b和5c分别图示了一个示例的原始带噪语音信号、利用现有技术从该原始带噪语音信号导出的纯净语音信号的估计、以及利用方法100从该原始带噪语音信号导出的纯净语音信号的估计的相应语谱图。从这些图可以看出,在只有噪声存在的情况下,与在图5b中相比,噪声在图5c中被进一步抑制,而语音基本不变。这表明了方法100在估计语音是否存在方面的更好的表现以及在只有噪声的情况下对噪声的进一步抑制。这有利地增强了从带噪语音信号恢复出来的语音信号的质量。图6图示了根据本发明另一实施例的语音降噪方法600的流程图。参考图6,与方法100类似,方法600也包括步骤110~160,这些步骤的详情已经在上面关于图1-4进行了描述并且因此在此被省略。方法600不同于方法100在于它还包括步骤610和620,它们在下面被详细描述。在步骤610处,执行第二噪声估计,其中得到所述噪声信号的方差的第二估计。第二噪声估计是独立于(并行于)第一噪声估计而被执行的,并且可以采用与步骤122中相同的噪声估计更新公式:。然而,在第二噪声估计中采用不同于第一噪声估计的更新准则。具体地,在步骤610中,取决于步骤140中得到的所估计的先验语音存在概率,利用所述带噪语音信号的上一帧中的所述噪声信号的方差的所述第二估计和所述带噪语音信号的当前帧的能量谱来选择性地更新所述当前帧中的所述噪声信号的方差的所述第二估计。更具体地,如果所估计的先验语音存在概率大于或等于第二阈值spthr,则执行所述更新,并且如果所估计的先验语音存在概率小于所述第二阈值spthr,则不执行所述更新。在步骤620处,取决于所述噪声信号的方差的所述第一估计在预定频率范围内的量值之和,利用所述噪声信号的方差的所述第二估计来选择性地重新估计所述后验信噪比和所述先验信噪比。在一些实施例中所述预定频率范围可以例如为低频范围,诸如0至1kHz,尽管其他实施例是可能的。所述噪声信号的方差的所述第一估计在该预定频率范围内的量值之和可以指示噪声信号的预定频率分量的水平。在实施例中,如果所述量值之和大于或等于第三阈值noithr,则执行所述重新估计,并且如果所述量值之和小于所述第三阈值noithr,则不执行所述重新估计。后验信噪比和先验信噪比的重新估计可以基于上面描述的步骤124和126中的操作,只不过在步骤610的第二噪声估计中(而不是在步骤122的第一噪声估计中)得到的噪声方差的估计被使用。在所述重新估计被执行的情况下,在步骤150中基于所重新估计的后验信噪比(而不是在步骤124中得到的后验信噪比)、所重新估计的先验信噪比(而不是在步骤126中得到的先验信噪比)以及在步骤140中得到的所估计的先验语音存在概率来确定增益。在所述重新估计未被执行的情况下,在步骤150中仍然基于在步骤124中得到的后验信噪比、在步骤126中得到的先验信噪比以及在步骤140中得到的所估计的先验语音存在概率来确定增益。方法600与否则直接地使用第二噪声估计来重新估计先验信噪比和后验信噪比(以及因此维纳增益)的方案相比能够导致在低信噪比情况下识别率的提升,因为第二噪声估计可能导致噪声的过估计,该过估计虽然在低信噪比情况下能进一步抑制噪声,但是在高信噪比的情况下可能损失语音信息。有利地,由于引入了噪声估计的判决,其中根据判决结果选择性地使用第一噪声估计或第二噪声估计来求维纳增益,方法600能确保在高低信噪比下都有比较好的性能表现。图7图示了其中可以应用图6的方法600的典型应用场景中的示例处理流程700。该典型应用场景例如为车载终端与用户之间的人机对话。在710处,对来自用户的语音输入进行回波抵消。语音输入可以是例如通过多个信号采集通道采集的带噪语音信号。回波抵消可以基于例如自动回波抵消(AEC)技术来实现。在720处,进行波束形成。通过对多个信号采集通道采集的各路信号进行加权合成,形成所需的语音信号。在730处,对语音信号进行降噪。这可以通过图6的方法600来实现。在740处,基于经降噪的语音信号确定是否唤醒车载终端上安装的语音应用程序。例如,只有在经降噪的语音信号被识别为特定的语音口令(例如,“你好!XXX”)时,语音应用程序才被唤醒。语音口令的识别可以通过车载终端上的本地语音识别软件来实现。如果语音应用程序未被唤醒,则继续接收和识别语音信号,直到所要求的语音口令被输入。如果语音应用程序被唤醒,则在750处触发云端语音识别功能,并且经降噪的语音信号被车载终端发送到云端进行识别。在识别来自车载终端的语音信号之后,云端可以将相应的语音应答内容回送给车载终端,从而实现人机对话。替代地或附加地,语音信号的识别和应答可以在车载终端本地执行。图8图示了根据本发明实施例的语音降噪装置800的框图。参考图8,语音降噪装置800包括信号获取模块810、信噪比估计模块820、似然比确定模块830、概率估计模块840、增益确定模块850以及语音信号导出模块860。信号获取模块810被配置成获取带噪语音信号。取决于应用场景,信号获取模块810可以通过各种不同的方式实现。在一些实施例中,它可以是诸如麦克风之类的语音拾取设备或者其他以硬件实现的接收机。在一些实施例中,它可以被实现为计算机指令,以例如从本地存储器中检索语音数据记录。在一些实施例中,它可以被实现为硬件和软件的组合。带噪语音信号的获取涉及上面关于图1描述的步骤110中的操作,并且在此不再赘述。信噪比估计模块820被配置成估计所述带噪语音信号的后验信噪比和先验信噪比。这涉及在上面关于图1和2描述的步骤120中的操作,并且在此不再赘述。在一些实施例中,信噪比估计模块820还可以被配置成执行上面关于图6描述的步骤610和620中的操作。具体地,信噪比估计模块820还可以被配置成(1)执行第二噪声估计,其中得到所述噪声信号的方差的第二估计,和(2)取决于所述噪声信号的方差的所述第一估计在预定频率范围内的量值之和,利用所述噪声信号的方差的所述第二估计来选择性地重新估计所述后验信噪比和所述先验信噪比。似然比确定模块830被配置成基于所估计的后验信噪比和所估计的先验信噪比在Bark域中确定语音噪声似然比。这涉及在上面关于图1和3描述的步骤130中的操作,并且在此不再赘述。概率估计模块840被配置成基于所确定的语音噪声似然比估计先验语音存在概率。这涉及在上面关于图1和4描述的步骤140中的操作,并且在此不再赘述。增益确定模块850被配置成基于所估计的后验信噪比、所估计的先验信噪比以及所估计的先验语音存在概率来确定增益。这涉及在上面关于图1描述的步骤150中的操作,并且在此不再赘述。在后验信噪比和先验信噪比的重新估计已经由信噪比估计模块820执行的实施例中,增益确定模块850还被配置成基于所重新估计的后验信噪比、所重新估计的先验信噪比以及所估计的先验语音存在概率来确定增益。语音信号导出模块860被配置成基于增益从所述带噪语音信号导出所述纯净语音信号的所述估计。这涉及在上面关于图1描述的步骤160中的操作,并且在此不再赘述。图9一般地图示了示例系统900,其包括代表可以实现本文描述的各种技术的一个或多个系统和或设备的示例计算设备910。计算设备910可以是例如服务提供商的服务器、与客户端(例如,客户端设备)相关联的设备、片上系统、和或任何其它合适的计算设备或计算系统。上面关于图8描述的语音降噪装置800可以采取计算设备910的形式。替换地,语音降噪装置800可以以语音降噪应用916的形式被实现为计算机程序。如图示的示例计算设备910包括彼此通信耦合的处理系统911、一个或多个计算机可读介质912以及一个或多个IO接口913。尽管未示出,但是计算设备910还可以包括系统总线或其他数据和命令传送系统,其将各种组件彼此耦合。系统总线可以包括不同总线结构的任何一个或组合,所述总线结构诸如存储器总线或存储器控制器、外围总线、通用串行总线、和或利用各种总线架构中的任何一种的处理器或局部总线。还构思了各种其他示例,诸如控制和数据线。处理系统911代表使用硬件执行一个或多个操作的功能。因此,处理系统911被图示为包括可被配置为处理器、功能块等的硬件元件914。这可以包括在硬件中实现作为专用集成电路或使用一个或多个半导体形成的其它逻辑器件。硬件元件914不受其形成的材料或其中采用的处理机构的限制。例如,处理器可以由(多个)半导体和或晶体管(例如,电子集成电路(IC))组成。在这样的上下文中,处理器可执行指令可以是电子可执行指令。计算机可读介质912被图示为包括存储器存储装置915。存储器存储装置915表示与一个或多个计算机可读介质相关联的存储器存储容量。存储器存储装置915可以包括易失性介质(诸如随机存取存储器(RAM))和或非易失性介质(诸如只读存储器(ROM)、闪存、光盘、磁盘等)。存储器存储装置915可以包括固定介质(例如,RAM、ROM、固定硬盘驱动器等)以及可移动介质(例如,闪存、可移动硬盘驱动器、光盘等)。计算机可读介质912可以以下面进一步描述的各种其他方式进行配置。一个或多个IO接口913代表允许用户向计算设备910输入命令和信息并且可选地还允许使用各种输入输出设备将信息呈现给用户和或其他组件或设备的功能。输入设备的示例包括键盘、光标控制设备(例如,鼠标)、麦克风(例如,用于语音输入)、扫描仪、触摸功能(例如,被配置为检测物理触摸的容性或其他传感器)、相机(例如,可以采用可见或不可见的波长(诸如红外频率)将不涉及触摸的运动检测为手势)等等。输出设备的示例包括显示设备(例如,监视器或投影仪)、扬声器、打印机、网卡、触觉响应设备等。因此,计算设备910可以以下面进一步描述的各种方式进行配置以支持用户交互。计算设备910还包括语音降噪应用916。语音降噪应用916可以例如是图8的语音降噪装置800的软件实例,并且与计算设备910中的其他元件相组合地实现本文描述的技术。本文可以在软件硬件元件或程序模块的一般上下文中描述各种技术。一般地,这些模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元素、组件、数据结构等。本文所使用的术语“模块”,“功能”和“组件”一般表示软件、固件、硬件或其组合。本文描述的技术的特征是与平台无关的,意味着这些技术可以在具有各种处理器的各种计算平台上实现。所描述的模块和技术的实现可以存储在某种形式的计算机可读介质上或者跨某种形式的计算机可读介质传输。计算机可读介质可以包括可由计算设备910访问的各种介质。作为示例而非限制,计算机可读介质可以包括“计算机可读存储介质”和“计算机可读信号介质”。与单纯的信号传输、载波或信号本身相反,“计算机可读存储介质”是指能够持久存储信息的介质和或设备,和或有形的存储装置。因此,计算机可读存储介质是指非信号承载介质。计算机可读存储介质包括诸如易失性和非易失性、可移动和不可移动介质和或以适用于存储信息(诸如计算机可读指令、数据结构、程序模块、逻辑元件电路或其他数据)的方法或技术实现的存储设备之类的硬件。计算机可读存储介质的示例可以包括但不限于RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字通用盘(DVD)或其他光学存储装置、硬盘、盒式磁带、磁带,磁盘存储装置或其他磁存储设备,或其他存储设备、有形介质或适于存储期望信息并可以由计算机访问的制品。“计算机可读信号介质”是指被配置为诸如经由网络将指令发送到计算设备910的硬件的信号承载介质。信号介质典型地可以将计算机可读指令、数据结构、程序模块或其他数据体现在诸如载波、数据信号或其它传输机制的调制数据信号中。信号介质还包括任何信息传递介质。术语“调制数据信号”是指以这样的方式对信号中的信息进行编码来设置或改变其特征中的一个或多个的信号。作为示例而非限制,通信介质包括诸如有线网络或直接连线的有线介质以及诸如声、RF、红外和其它无线介质的无线介质。如前所述,硬件元件914和计算机可读介质912代表以硬件形式实现的指令、模块、可编程器件逻辑和或固定器件逻辑,其在一些实施例中可以用于实现本文描述的技术的至少一些方面。硬件元件可以包括集成电路或片上系统、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、复杂可编程逻辑器件(CPLD)以及硅中的其它实现或其他硬件设备的组件。在这种上下文中,硬件元件可以作为执行由硬件元件所体现的指令、模块和或逻辑所定义的程序任务的处理设备,以及用于存储用于执行的指令的硬件设备,例如,先前描述的计算机可读存储介质。前述的组合也可以用于实现本文所述的各种技术和模块。因此,可以将软件、硬件或程序模块和其它程序模块实现为在某种形式的计算机可读存储介质上和或由一个或多个硬件元件914体现的一个或多个指令和或逻辑。计算设备910可以被配置为实现与软件和或硬件模块相对应的特定指令和或功能。因此,例如通过使用处理系统的计算机可读存储介质和或硬件元件914,可以至少部分地以硬件来实现将模块实现为可由计算设备910作为软件执行的模块。指令和或功能可以由一个或多个制品(例如,一个或多个计算设备910和或处理系统911)可执行可操作以实现本文所述的技术、模块和示例。在各种实施方式中,计算设备910可以采用各种不同的配置。例如,计算设备910可以被实现为包括个人计算机、台式计算机、多屏幕计算机、膝上型计算机、上网本等的计算机类设备。计算设备910还可以被实现为包括诸如移动电话、便携式音乐播放器、便携式游戏设备、平板计算机、多屏幕计算机等移动设备的移动装置类设备。计算设备910还可以实现为电视类设备,其包括具有或连接到休闲观看环境中的一般地较大屏幕的设备。这些设备包括电视、机顶盒、游戏机等。本文描述的技术可以由计算设备910的这些各种配置来支持,并且不限于本文所描述的技术的具体示例。功能还可以通过使用分布式系统、诸如通过如下所述的平台922而在“云”920上全部或部分地实现。云920包括和或代表用于资源924的平台922。平台922抽象云920的硬件(例如,服务器)和软件资源的底层功能。资源924可以包括在远离计算设备910的服务器上执行计算机处理时可以使用的应用和或数据。资源924还可以包括通过因特网和或通过诸如蜂窝或Wi-Fi网络的订户网络提供的服务。平台922可以抽象资源和功能以将计算设备910与其他计算设备连接。平台922还可以用于抽象资源的分级以提供遇到的对于经由平台922实现的资源924的需求的相应水平的分级。因此,在互连设备实施例中,本文描述的功能的实现可以分布在整个系统900内。例如,功能可以部分地在计算设备910上以及通过抽象云920的功能的平台922来实现。在一些实施例中,计算设备910可以将导出的纯净语音信号发送到驻留在云920上的语音识别应用(未示出)以供识别。替换地或附加地,计算设备910也可以包括本地的语音识别应用(未示出)。在本文的讨论中,描述了各种不同的实施例。应当领会和理解,本文描述的每个实施例可以单独使用或与本文所述的一个或多个其他实施例相关联地使用。尽管已经以结构特征和或方法动作特定的语言描述了主题,但是应当理解,所附权利要求中限定的主题不一定限于上述具体特征或动作。相反,上述具体特征和动作被公开为实现权利要求的示例形式。虽然各个操作在附图中被描绘为按照特定的顺序,但是这不应理解为要求这些操作必须以所示的特定顺序或者按顺行次序执行,也不应理解为要求必须执行所有示出的操作以获得期望的结果。通过研究附图、公开内容和所附的权利要求书,本领域技术人员在实践所要求保护的主题时,能够理解和实现对于所公开的实施例的变型。在权利要求书中,词语“包括”不排除其他元件或步骤,并且不定冠词“一”或“一个”不排除多个。在相互不同的从属权利要求中记载了某些措施的仅有事实并不表明这些措施的组合不能用来获利。

权利要求:1.一种计算机实现的语音降噪方法,包括:获取带噪语音信号,所述带噪语音信号包括纯净语音信号和噪声信号;估计所述带噪语音信号的后验信噪比和先验信噪比;基于所估计的后验信噪比和所估计的先验信噪比在Bark域中确定语音噪声似然比;基于所确定的语音噪声似然比估计先验语音存在概率;基于所估计的后验信噪比、所估计的先验信噪比以及所估计的先验语音存在概率来确定增益,所述增益为用于将所述带噪语音信号变换成所述纯净语音信号的估计的频域传递函数;并且基于所述增益从所述带噪语音信号导出所述纯净语音信号的所述估计。2.如权利要求1所述的方法,其中所述估计所述带噪语音信号的先验信噪比和后验信噪比包括:执行第一噪声估计,其中得到所述噪声信号的方差的第一估计;利用所述噪声信号的方差的所述第一估计来估计所述后验信噪比;并且利用所估计的后验信噪比来估计所述先验信噪比。3.如权利要求2所述的方法,其中所述执行第一噪声估计包括:对所述带噪语音信号的能量谱在频域和时域上进行平滑;对经平滑的所述能量谱执行最小跟踪估计;并且取决于经平滑的所述能量谱与该经平滑的所述能量谱的最小跟踪估计的比值,利用所述带噪语音信号的上一帧中的所述噪声信号的方差的所述第一估计和所述带噪语音信号的当前帧的所述能量谱来选择性地更新所述带噪语音信号的当前帧中的所述噪声信号的方差的所述第一估计。4.如权利要求3所述的方法,其中所述选择性地更新包括:响应于所述比值大于或等于第一阈值而执行所述更新;并且响应于所述比值小于所述第一阈值而不执行所述更新。5.如权利要求2所述的方法,其中所述在Bark域中确定语音噪声似然比包括:基于高斯概率密度假设,将所述语音噪声似然比计算为,其中为所述带噪语音信号的第帧在第个频点上的所述语音噪声似然比,为所述第帧在所述第个频点上的所估计的先验信噪比,并且为所述第帧在所述第个频点上的所估计的后验信噪比;并且通过将和从线性频域转换到Bark域而将变换为,其中b为Bark域中的频点。6.如权利要求5所述的方法,其中从线性频域到Bark域的所述转换基于以下等式:,其中为所述线性频域中的频率。7.如权利要求5所述的方法,其中所述估计先验语音存在概率包括:在对数域中将平滑为,其中为平滑因子;并且通过在Bark域的全带中映射而得到所估计的所述先验语音存在概率。8.如权利要求7所述的方法,其中所述映射为,其中为所估计的先验语音存在概率。9.如权利要求2所述的方法,还包括:独立于所述第一噪声估计执行第二噪声估计,其中得到所述噪声信号的方差的第二估计;并且取决于所述噪声信号的方差的所述第一估计在预定频率范围内的量值之和,利用所述噪声信号的方差的所述第二估计来选择性地重新估计所述后验信噪比和所述先验信噪比,其中所述确定增益包括:响应于所述重新估计被执行而基于所重新估计的后验信噪比、所重新估计的先验信噪比以及所估计的先验语音存在概率来确定所述增益。10.如权利要求9所述的方法,其中所述执行第二噪声估计包括:取决于所估计的先验语音存在概率,利用所述带噪语音信号的上一帧中的所述噪声信号的方差的所述第二估计和所述带噪语音信号的当前帧的能量谱来选择性地更新所述带噪语音信号的当前帧中的所述噪声信号的方差的所述第二估计。11.如权利要求10所述的方法,其中所述选择性地更新包括:响应于所估计的先验语音存在概率大于或等于第二阈值而执行所述更新;并且响应于所估计的先验语音存在概率小于所述第二阈值而不执行所述更新。12.如权利要求9所述的方法,其中所述选择性地重新估计所述先验信噪比和所述后验信噪比包括:响应于所述噪声信号的方差的所述第一估计在所述预定频率范围内的所述量值之和大于或等于第三阈值而执行所述重新估计;并且响应于所述噪声信号的方差的所述第一估计在所述预定频率范围内的所述量值之和小于所述第三阈值而不执行所述重新估计。13.一种语音降噪装置,包括:信号获取模块,被配置成获取带噪语音信号,所述带噪语音信号包括纯净语音信号和噪声信号;信噪比估计模块,被配置成估计所述带噪语音信号的先验信噪比和后验信噪比;似然比确定模块,被配置成基于所估计的先验信噪比和所估计的后验信噪比在Bark域中确定语音噪声似然比;概率估计模块,被配置成基于所确定的语音噪声似然比估计先验语音存在概率;增益确定模块,被配置成基于所估计的先验信噪比、所估计的后验信噪比以及所估计的先验语音存在概率来确定增益,所述增益为用于将所述带噪语音信号变换成所述纯净语音信号的估计的频域传递函数;以及语音信号导出模块,被配置成基于所述增益从所述带噪语音信号导出所述纯净语音信号的所述估计。14.一种计算设备,包括处理器和存储器,所述存储器被配置成存储计算机程序,所述计算机程序被配置成当在所述处理器上执行时使所述处理器执行权利要求1-12中任一项所述的方法。15.一种计算机可读存储介质,被配置成存储计算机程序,所述计算机程序被配置成当在处理器上执行时使所述处理器执行权利要求1-12中任一项所述的方法。

百度查询: 腾讯科技(深圳)有限公司 语音降噪的方法和装置、计算设备和计算机可读存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。