买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于宽度和深度神经网络的声场景分类方法_华南理工大学_202010624687.1 

申请/专利权人:华南理工大学

申请日:2020-07-02

公开(公告)日:2023-05-26

公开(公告)号:CN111723874B

主分类号:G06F18/214

分类号:G06F18/214;G06F18/213;G06F18/2431;G06N3/0464;G06N3/047;G06N3/048;G06N3/08

优先权:

专利状态码:有效-授权

法律状态:2023.05.26#授权;2020.10.27#实质审查的生效;2020.09.29#公开

摘要:本发明公开了一种基于宽度和深度神经网络的声场景分类方法,包括下列步骤:首先从声场景音频样本提取对数梅尔谱特征,并划分为训练集和测试集;再设计宽度神经网络和深度联合概率网络;将训练集各音频样本的对数梅尔谱特征作为输入,对上述两个网络进行预训练;根据预训练结果构建联合判别分类树模型,训练并调优该联合判别分类树模型;最后将测试集各音频样本的对数梅尔谱特征输入联合判别分类树模型,辨识各音频样本所对应的声场景。本发明构建的联合判别分类树模型可以补足单一网络泛化能力差、稳定性弱的缺点,并利用宽度神经网络和深度神经网络的优势互补特性提升声场景分类效果。

主权项:1.一种基于宽度和深度神经网络的声场景分类方法,其特征在于,所述的声场景分类方法包括下列步骤:S1、建立音频数据集;从声场景音频样本提取对数梅尔谱特征,并按比例划分为训练集和测试集;S2、构建宽度神经网络:建立特征映射层和增强层,特征映射层和增强层对输入样本进行特征映射,映射的特征并列组合成输入层,输入层到输出层通过权重矩阵相连接;S3、构建深度联合概率网络:分别建立一维卷积神经网络和长短时记忆网络,然后通过加权平均一维卷积神经网络和长短时记忆网络的输出概率,将一维卷积神经网络和长短时记忆网络组合成一个深度联合概率网络;S4、构建联合判别分类树模型:根据宽度神经网络和深度联合概率网络初步训练的结果构建一个联合判别分类树模型,训练并调整联合判别分类树模型的参数直到模型收敛,得到经过训练的联合判别分类树模型;所述的步骤S4过程如下:S4.1、用步骤S1中划分出的训练集对步骤S2中构建的宽度神经网络和步骤S3中构建的深度联合概率网络进行初步的训练,得到宽度神经网络的分类准确率,并对其从高到低排名,准确率越高的分类排名越靠前,深度联合概率网络得到预训练权重;S4.2、将宽度神经网络和深度联合概率网络作为分类树的节点进行分类,并设定宽度神经网络的节点数BN和深度联合概率网络节点数DN,其中,DN=1,其中表示向下取整,n表示整个音频数据集的分类数目,a表示宽度神经网络可分出的子类数目的超参数,a取值是在范围内的整数;S4.3、构建联合判别分类树模型,该联合判别分类树模型由BN个宽度神经网络节点和DN个深度联合概率网络节点构成,所有输入样本先经过宽度神经网络节点得到准确率最高的BN×a-1类,再将其余n-BN×a-1类输入样本经过深度联合概率网络节点进行分类,过程如下:S4.3.1、联合判别分类树模型将宽度神经网络作为联合判别分类树模型的分支节点向下延伸,待分类数据经过分支节点后分类输出:宽度敏感1类、宽度敏感2类、……宽度敏感a-1类和宽度非敏感类,这里的a即S4.2中定义的a,即以分类结果组成一个分支节点的输出;若分类结果为敏感类,则直接输出结果,若为宽度非敏感类,则将待分类数据输入下一个节点;S4.3.2、若联合判别分类树模型中宽度神经网络节点的数目未达到BN,则继续步骤S4.3.1的过程向下延伸联合判别分类树模型,若联合判别分类树模型中宽度神经网络节点的数目已达到BN,则进行步骤S4.3.3;S4.3.3、联合判别分类树模型将深度联合概率网络作为分类树的最后一个节点,接收经过BN个宽度神经网络节点的最终输出的宽度非敏感类作为输入,得到最终的宽度非敏感类分类输出,至此,联合判别分类树模型中树的末梢分支得出所有分类;S4.4、训练过程中,逐渐增加分类树的两类节点数直到设定的节点数目,以平均整体准确率ACC和深度联合概率网络的损失函数Ldeep作为监督信号: 式中,acci表示音频数据集的第i分类经过整个联合判别分类树模型后的准确率,n表示整个音频数据集的分类数目;S4.5、最后训练并调优联合判别分类树模型,采用网络搜索法,寻找合适的a、wc、wl值,wc和wl分别表示一维卷积神经网络和长短时记忆网络的权值,每次选定a,联合判别分类树模型的结构做出相应的变化,联合判别分类树模型中的宽度神经网络和深度联合概率网络按照联合判别分类树模型的结构变化后的输入输出数据进行对应的训练,对整个联合判别分类树模型的训练和优化应使得ACC最大且深度联合概率网络的损失使用交叉熵函数Ldeep最小,优化后得到经过训练的联合判别分类树模型;S5、声场景辨识:将测试音频样本的对数梅尔谱特征输入经过训练的联合判别分类树模型,得到各测试音频样本的声场景类别。

全文数据:

权利要求:

百度查询: 华南理工大学 一种基于宽度和深度神经网络的声场景分类方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。