申请/专利权人:天津大学
申请日:2020-07-15
公开(公告)日:2023-09-19
公开(公告)号:CN111789577B
主分类号:A61B5/00
分类号:A61B5/00;G06N3/0464;G06N3/08;G10L25/03;G10L25/30;G10L25/66
优先权:
专利状态码:有效-授权
法律状态:2023.09.19#授权;2020.11.06#实质审查的生效;2020.10.20#公开
摘要:本发明涉及医疗器械、鼾声分类,为实现鼾声自动识别。为此,本发明采取的技术方案是,基于CQT和STFT深度语谱特征鼾声分类方法,通过对鼾声音频信号进行常数Q变换与短时傅里叶变换,将变换后生成的语谱图作为预训练深度卷积神经网络的输入,提取其输出作为特征向量,使用支持向量机SVM训练分类模型,最后利用训练好的分类模型实现鼾声自动识别。本发明主要应用于鼾声分类医疗器械的设计制造场合。
主权项:1.一种基于CQT和STFT深度语谱特征鼾声分类方法,其特征是,通过预训练卷积神经网络提取鼾声音频信号的特征向量,使用支持向量机训练分类模型,再利用训练好的模型实现对患者打鼾时上气道振动和阻塞位置的非侵入式的自动识别,其中通过对鼾声音频信号进行常数Q变换与短时傅里叶变换,将变换后生成的语谱图作为预训练深度卷积神经网络的输入,提取其输出作为特征向量;详细步骤如下:步骤一:将Munich-Passau鼾声语料库MPSSC作为鼾声音频数据集,将MPSSC中的鼾声音频样本分别进行常数Q变换和短时傅里叶变换,对变换后的时频数据生成基于CQT的语谱图和基于STFT的语谱图;步骤二:使用CAFFE获得了预训练的AlexNet的模型和权重,将绘制的基于CQT的语谱图和基于STFT的语谱图分别输入预训练的AlexNet,提取第二全连接层的输出,得到基于CQT的深度语谱特征向量和基于STFT的深度语谱特征向量,生成的特征向量均包含4096个属性——分别对应AlexNet第二全连接层的每个神经元;步骤三:将基于CQT的深度语谱特征向量和基于STFT的深度语谱特征向量进行融合,使用LIBLINEAR库的对偶的L2正则化L2损失的支持向量分类器,按照MPSSC给定的VOTE四类阻塞与振动位置训练得到分类模型,采用不加权平均召回率UAR作为评估指标,UAR定义如下: 其中,VRecall、ORecall、TRecall和ERecall分别代表软腭V、口咽侧壁O、舌根T和会厌E的召回率Recall,UAR表示这四类阻塞与振动位置对应的召回率的均值。
全文数据:
权利要求:
百度查询: 天津大学 基于CQT和STFT深度语谱特征鼾声分类方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。