买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于声学特征和稀疏数学的抑郁症辅助检测方法及分类器_西北大学;中国科学院上海技术物理研究所_201710695633.2 

申请/专利权人:西北大学;中国科学院上海技术物理研究所

申请日:2017-08-15

公开(公告)日:2021-01-05

公开(公告)号:CN107657964B

主分类号:G10L25/63(20130101)

分类号:G10L25/63(20130101);G10L25/30(20130101);G10L25/24(20130101);G10L25/15(20130101);G10L25/93(20130101);G10L15/02(20060101);G10L15/08(20060101);G10L21/0208(20130101);A61B5/16(20060101)

优先权:

专利状态码:有效-授权

法律状态:2021.01.05#授权;2018.03.06#实质审查的生效;2018.02.02#公开

摘要:本发明属于语音处理及图像处理技术领域,公开了一种基于声学特征和稀疏数学的抑郁症辅助检测方法及分类器,基于语音和面部情绪共同识别的抑郁症判别;通过逆滤波器实现声门信号的估计,对语音信号采用全局分析,提取特征参数,分析特征参数的时序和分布特点,找到不同情感语音的韵律规律作为情感识别的依据;使用MFCC作为特征参数分析所要处理的语音信号,并用多组训练数据分别采集录音中的数据,建立神经网络模型进行判别;采用基于OMP的稀疏表示算法得到测试样本的稀疏线性组合,对人脸面部情绪进行判别归类,将得到的结果与语音识别结果线性组合以得到最终的表示每个数据的概率。抑郁症识别率有很大的提升,成本低廉。

主权项:1.一种基于声学特征和稀疏数学的抑郁症辅助检测方法,其特征在于,所述基于声学特征和稀疏数学的抑郁症辅助检测方法通过语音和面部情绪共同识别进行抑郁症判别;使用MFCC作为特征参数分析所要处理的语音信号,并用多组训练数据分别采集录音中的数据,建立神经网络模型进行判别;采用基于OMP的稀疏表示算法得到测试样本的稀疏线性组合,对人脸面部情绪进行判别归类,将得到的结果与语音识别结果线性组合以得到最终的表示每个数据的概率;所述基于声学特征和稀疏数学的抑郁症辅助检测方法包括以下步骤:步骤一,读入语音数据并预处理,对所有语音进行信号增强;步骤二,选用标准的3层BP神经网络按顺序分别输入害怕、正常、抑郁三类语音,提取MFCC的12个特征值组成12维特征向量;步骤三,采用基于BP_adaboost的强分类器,将提取的MFCC的12维特征向量作为12个弱分类器,将每个弱分类器的输出乘以权重后进行合并以产生有效分类;步骤四,从人脸库中的四类测试样本愤怒、抑郁、高兴和正常中对每类表情选出一幅图像,采用正交匹配追踪算法得到测试样本的稀疏线性组合,实现人脸识别;所述步骤一具体包括:1语音为平稳信号,带噪语音信号表示为:yn=sn+dn,0≤n≤N-1;式中sn为纯净语音信号,dn为平稳加性高斯噪声,yn为带噪语音信号;将带噪语音信号频域表示,其中*表示复共轭,因此:|Yk|2=|Sk|2+|Nk|2+SkNk*+Sk*Nk;2sn与dn独立,互谱的统计均值为0,利用发语音前或后的寂静帧来估计噪声,一个分析帧内的短时平稳过程:|Yk|2=|Sk|2+λK;其中λK为无语音时|Nk|2的统计平均值,λK=E[|Nk|2],得原始语音的估计值: 3在元音段等幅度较高的帧去除噪声时减去n*λk为: m=0.4,n=0.8;m是谱减功率修正系数,n是谱减噪声系数;所述步骤二具体包括:1先将原始语音信号Sn预加重,加窗后便得到一帧语音信号,对一帧语音信号进行快速傅里叶变换,得到信号的离散功率谱Xk;2由M个三角形带通滤波器组成的滤波器组,每个滤波器的中心频率为fm,m=1,2,......,M,相邻滤波器交叉重叠在一起,且其中心频率在Mel频率轴上为等间距分布,滤波器组在频域上覆盖从0Hz到Nyquist频率,三角滤波器的频率响应Hk为: 其中f1和fH分别是滤波器组覆盖范围的低通频率和高通频率,Fs是信号采样频率,单位都是Hz,M是滤波器组中滤波器的个数,N是进行FFT变换时的点数;3每个滤波器产生的输出频谱能量,取对数后便得到一组如下系数Sm为: 再经过离散余弦变换将Sm转换到时域,是MFCC,MFCC系数cm的计算过程为: 所述步骤三具体包括:1从样本空间中随机选择m组训练数据,初始化测试数据分布权值Dti=1m,根据样本输入输出维数确定神经网络结构,初始化BP神经网络权值和阈值;2弱分类器预测,训练第t个弱分类器时,用训练数据训练BP神经网络并预测训练数据输出,得到预测序列gt的预测误差和et=∑iDti;3计算预测序列权重,根据预测序列gt的预测误差et计算序列的权重αt,权重计算公式为: 4测试数据权重调整,根据预测序列权重αt调整下一轮训练样本的权重,调整公式为: 其中Bt是归一化因子,目的是在权重比例不变的情况下使分布权值和为1;5强分类函数,训练T轮后得到T组弱分类函数fgt,αt,由T组弱分类函数fgt,αt组合得到强分类函数hx: 所述步骤四具体包括:1任意类有足够多的训练样本,第i类训练样本用矩阵表示为来自同一类别的测试样本向量y∈Rm被该类训练样本的线性组合逼近:y=ai,1vi,1+ai,2vi,2+…+ai,jvi,j;其中αi,j∈R,将k类共n个训练样本组合在一起形成整个训练集矩阵A,测试样本y表示为y=Ax,x是信号y在字典A中线性扩展的系数向量,采用OMP算法进行求解;2通过OMP算法寻找训练样本矩阵中与残差最大线性相关的原子来更新索引集,并在每次迭代中获得测试样本在索引集上的最优投影来逐步逼近原始信号,求得稀疏解;初始化余量r0=y,索引集迭代次数t=1;3在A中选出与余量相关性最相关的原子:nt=argmaxrt-1,vii=1,2,...N,并更新已选列空间:4求解最小二乘问题,获得在已选列向量上的最优投影,更新已选各列的稀疏系数值更新余量:令t=t+1,判断rt<θ,θ为最大残差值,满足则停止并输出否则跳到3。

全文数据:基于声学特征和稀疏数学的抑郁症辅助检测方法及分类器技术领域[0001]本发明属于语音处理及图像处理技术领域,尤其涉及一种基于声学特征和稀疏数学的抑郁症辅助检测方法及分类器。背景技术[0002]抑郁症是一种伴随有思想和行为异常的精神障碍,已经成为全球范围内严重的公共卫生和社会问题。一项来自国家心理健康研究所NMH的数据显示,2015年,美国预计有1610万18岁以上的成年人在过去一年中至少发生了一次严重的抑郁事件,这一数字占美国成年人的6.7%。其症状主要是持续悲伤、感到无望,入睡困难等,严重的病人会出现自杀的想法和自杀企图。因此,降低自杀风险的最佳策略之一就是基于有效的检测方法。近年来,国内外学者做了大量的研究,Helfer等人基于共振峰特征采用高斯混合模型和支持向量机模型构造了高低两类抑郁症分类器,其分类准确率分别达到了70%和73%,但其只采用前三共振峰特征值,没有将共振峰特征和其余语音特征相结合,且实验样本数有局限性。Ozdas等人基于声带抖动和声门波频谱范围探究造成抑郁症和自杀的风险因素。但是其实验样本数较少,缺少在大样本情况下的验证,且其实验样本的建立环境来自不同的通讯设备和环境。因此,对实验结果的准确性造成了一定的影响。[0003]综上所述,现有技术存在的问题是:传统抑郁症检测方法是基于主观量表和临床医生的主观判断,存在较大的误判率,且检测与筛查方法单一,缺乏有效的客观评价指标。发明内容[0004]针对现有技术存在的问题,本发明提供了一种基于声学特征和稀疏数学的抑郁症辅助检测方法及分类器。[0005]本发明是这样实现的,一种基于声学特征和稀疏数学的抑郁症辅助检测方法,所述基于声学特征和稀疏数学的抑郁症辅助检测方法基于语音和面部情绪共同识别的抑郁症判别;通过逆滤波器实现声门信号的估计,对语音信号采用全局分析,提取特征参数,分析特征参数的时序和分布特点,找到不同情感语音的韵律规律作为情感识别的依据;使用MFCC作为特征参数分析所要处理的语音信号,并用多组训练数据分别采集录音中的数据,建立神经网络模型进行判别;采用基于OMP的稀疏表示算法得到测试样本的稀疏线性组合,对人脸面部情绪进行判别归类,将得到的结果与语音识别结果线性组合以得到最终的表示每个数据的概率。[0006]进一步,所述基于声学特征和稀疏数学的抑郁症辅助检测方法包括以下步骤:[0007]步骤一,读入语音数据并预处理,对所有语音进行信号增强;[0008]步骤二,选用标准的3层BP神经网络按顺序分别输入害怕、正常、抑郁三类语音,提取MFCC的12个特征值组成12维特征向量;[0009]步骤三,采用基于BP_adaboost的强分类器,将提取的MFCC的12阶特征参数作为12个弱分类器,将其每个弱分类器的输出进行合并以产生有效分类;[0010]步骤四,从人脸库中的四类测试样本愤怒、抑郁、高兴和正常中对每类表情选出一幅图像,采用OMP正交匹配追踪算法得到测试样本的稀疏线性组合,实现人脸识别。[0011]进一步,所述步骤一具体包括:[0012]1语音为平稳信号,带噪语音信号表示为:[0013][00M]式中sη为纯净语音信号,dη为平稳加性高斯噪声,yη为带噪语音信号;将带噪语音信号频域表示,其中*表示复共辄,因此:[0015][0016]2sη与dη独立,互谱的统计均值为0,利用发语音前或后的寂静帧来估计噪声,一个分析帧内的短时平稳过程:[0017]Ykl2=ISkl2+λK;[0018]其中λK为无语音时INk12的统计平均值,λK=E[INk12],得原始语音的估计值:[0019][0020]3在元音段等幅度较高的时帧去除噪声时减去η*λk为:[0021][0022]m=0.4,n=0.8;m是谱减功率修正系数,η是谱减噪声系数。[0023]进一步,所述步骤一具体包括:对不同情感语音的基频、共振峰、能量、短时平均幅度进行提取,具体包括:[0024]1发浊音时,声门激励是以基音周期为周期的脉冲序列:[0025][0026]其中M和r是正整数,,αγ是振幅因子,η是基音频率,根据复倒谱的定义得到Xη:[0027][0028]其中,β〇=1ηα〇:[0029]2计算浊音基音周期,对倒谱进行低时窗选,通过语音倒谱分析系统的最后一级,进行DFT后的输出即为平滑后的对数模函数,平滑的对数谱显示了特定输入语音段的谐振结构,谱的峰值基本上对应于共振峰频率,对平滑过的对数谱中的峰值进行定位即可估计共振峰;[0030]3能量及短时平均幅度估计;定义η时刻某语音信号的短时平均能量En*:[0031][0032]其中N为窗长。[0033]选择一帧语音,计算该帧语音取样值的绝对值的和,得到该帧语音的平均幅度,如果对整段语音的各个分帧分别计算平均幅度,得到整段语音的短时平均幅度,短时平均幅度函数Mn测量语音信号的幅度变化:[0034][0035]进一步,所述步骤二具体包括:[0036]1先将原始语音信号Sη预加重,加窗后便得到一帧语音信号,对一帧语音信号进行快速傅里叶变换,得到信号的离散功率谱Xk;[0037]2由M个三角形带通滤波器组成的滤波器组,每个滤波器的中心频率为fm,m=1,2,......,M,相邻滤波器交叉重叠在一起,且其中心频率在Mel频率轴上为等间距分布,滤波器组在频域上覆盖从OHz到Nyquist频率,三角滤波器的频率响应Hk为:[0039]其中fjPfH分别是滤波器组覆盖范围的低通频率和高通频率,Fs是信号采样频率,单位都是Hz,M是滤波器组中滤波器的个数,N是进行FFT变换时的点数;[0040]3每个滤波器产生的输出频谱能量,取对数后便得到一组如下系数sm为:[0041][0042]再经过离散余弦变换将Sm转换到时域,是MFCC,MFCC系数c⑴的计算过程为:[0043][0044]进一步,所述步骤三具体包括:[0045]1从样本空间中随机选择m组训练数据,初始化测试数据分布权值Dti=1m,根据样本输入输出维数确定神经网络结构,初始化BP神经网络权值和阈值;[0046]2弱分类器预测,训练第t个弱分类器时,用训练数据训练BP神经网络并预测训练数据输出,得到预测序列gt的预测误差和et=E1Dti;[0047]3计算预测序列权重,根据预测预测序列gt的预测误差et计算序列的权重at,权重计算公式为:[0048][0049]4测试数据权重调整,根据预测序列权重at调整下一轮训练样本的权重,调整公式为:[0050][0051]其中Bt是归一化因子,目的是在权重比例不变的情况下使分布权值和为1;[0052]5强分类函数,训练T轮后得到T组弱分类函数fgt,at,由T组弱分类函数fgt,at组合得到强分类函数hX:[0053][0054]进一步,所述步骤四具体包括:[0055]⑴任意类有足够多的训练样本,第i类训练样本用矩阵表示爻来自同一类别的测试样本向量yeiT被该类训练样本的线性组合逼近:[0056]y=ai,iVi,i+ai,2Vi,2+---+ai,jVi,j;[0057]其中Qi,」eR,将k类共η个训练样本组合在一起形成整个训练集矩阵A,测试样本y表示为y=Ax,x是信号y在字典A中线性扩展的系数向量,采用OMP算法进行求解;[0058]2通过OMP算法寻找训练样本矩阵中与残差最大线性相关的原子来更新索引集,并在每次迭代中获得测试样本在索引集上的最优投影来逐步逼近原始信号,求得稀疏解;初始化余量r〇=y,索引集_:,迭代次数t=l;[0059]⑶在A中选出与余量相关性最相关的原子:nt=argmax〈rt-i,vi〉i=l,2,...N,并更新已选列空间[0060]⑷求解最小二乘问题,获得在已选列向量上的最优投影,更新已选各列的稀疏系数值,.更新余量:令t=t+l,判断rt1=1,2,...N,并更新已选列空间:[0146]步骤4.4:求解最小二乘问题,保证残差最小,获得在已选列向量上的最优投影,更新已选各列的稀疏系数值:,更新余量令丨=丨+1,判断rt0Θ为设定的最大残差值),满足则停止并输出,,否则跳到步骤4.3。[0147]经过上述步骤后,最终可以得到测试样本的稀疏系数组合,通过对稀疏系数组合分析,就能实现对测试样本的判别归类,图8给出了四类测试样本稀疏表示后的稀疏系数图,图9给出了对不同面部情绪的识别率。[0148]从结果可以看出,抑郁和愤怒的识别率已经达到85%以上,四种情绪的总体平均识别率为74.4%。愤怒的识别率最高,为87.7%,这是因为人在愤怒时所表现出的嘴部,眼部,眉毛等特征明显,眼睛和嘴张开的幅度比正常时要大,且其情感因素表达强度最为强烈,特征参数的表征度较大。实验能正确识别出抑郁的概率为85.7%,比高兴和正常情感的识别率高,其中被误判为高兴的概率是5.5%,被误判为正常的概率是5.5%。[0149]步骤5:从情感语音信号中提取语音的情感特征,从面部图像序列中提取表情特征,将通过BP神经网络和通过稀疏表示算法计算得出的抑郁症识别率基于其各自所占的比重进行融合,判别抑郁情感状态。[0150]将待测语音的标准识别率作为多模态融合的输入M,通过语音识别模型和人脸识别模型检测得到的识别率分别记为A和B,因此,总识别率为[0151]从图7和图9中得出,通过语音识别模型和面部情绪识别模型得到的抑郁识别率分别为76%和85.7%,实验标准识别率为100%,因此,总体识别率为81.14%,这证明本实施例所提出的方法可以作为检测抑郁症是否存在的辅助手段。[0152]以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

权利要求:1.一种基于声学特征和稀疏数学的抑郁症辅助检测方法,其特征在于,所述基于声学特征和稀疏数学的抑郁症辅助检测方法基于语音和面部情绪共同识别的抑郁症判别;通过逆滤波器实现声门信号的估计,对语音信号采用全局分析,提取特征参数,分析特征参数的时序和分布特点,找到不同情感语音的韵律规律作为情感识别的依据;使用MFCC作为特征参数分析所要处理的语音信号,并用多组训练数据分别采集录音中的数据,建立神经网络模型进行判别;采用基于OMP的稀疏表示算法得到测试样本的稀疏线性组合,对人脸面部情绪进行判别归类,将得到的结果与语音识别结果线性组合以得到最终的表示每个数据的概率。2.如权利要求1所述的基于声学特征和稀疏数学的抑郁症辅助检测方法,其特征在于,所述基于声学特征和稀疏数学的抑郁症辅助检测方法包括以下步骤:步骤一,读入语音数据并预处理,对所有语音进行信号增强;步骤二,选用标准的3层BP神经网络按顺序分别输入害怕、正常、抑郁三类语音,提取MFCC的12个特征值组成12维特征向量;步骤三,采用基于BP_adaboost的强分类器,将提取的MFCC的12阶特征参数作为12个弱分类器,将每个弱分类器的输出乘以权重后进行合并以产生有效分类;步骤四,从人脸库中的四类测试样本愤怒、抑郁、高兴和正常中对每类表情选出一幅图像,采用正交匹配追踪算法得到测试样本的稀疏线性组合,实现人脸识别。3.如权利要求2所述的基于声学特征和稀疏数学的抑郁症辅助检测方法,其特征在于,所述步骤一具体包括:1语音为平稳信号,带噪语音信号表示为:式中sη为纯净语音信号,dη为平稳加性高斯噪声,yη为带噪语音信号;将带噪语音信号频域表示,其中*表示复共辄,因此:2sη与dη独立,互谱的统计均值为0,利用发语音前或后的寂静帧来估计噪声,一个分析帧内的短时平稳过程:其中λK为无语音时INk12的统计平均值,λK=E[INk12],得原始语音的估计值:⑶在元音段等幅度较高的时帧去除噪声时减去η*λ⑹为:m=0.4,n=0.8;m是谱减功率修正系数,η是谱减噪声系数。4.如权利要求2所述的基于声学特征和稀疏数学的抑郁症辅助检测方法,其特征在于,所述步骤一具体包括:对不同情感语音的基频、共振峰、能量、短时平均幅度进行提取,具体包括:1发浊音时,声门激励是以基音周期为周期的脉冲序列:其中M和r是正整数,0i=l,2,...N,并更新已选列空间⑷求解最小二乘问题,获得在已选列向量上的最优投影,更新已选各列的稀疏系数值更新余量::;令t=t+l,判断rt9,Θ为最大残差值,满足则停止并输出:f,否则跳到3。8.—种应用权利要求1〜7任意一项所述基于声学特征和稀疏数学的抑郁症辅助检测方法的抑郁症分类器。

百度查询: 西北大学;中国科学院上海技术物理研究所 基于声学特征和稀疏数学的抑郁症辅助检测方法及分类器

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。