买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种对不同设备或地点的自适应环境音频分类方法及系统_武汉大学_202311778401.5 

申请/专利权人:武汉大学

申请日:2023-12-22

公开(公告)日:2024-04-05

公开(公告)号:CN117831516A

主分类号:G10L15/16

分类号:G10L15/16;G06F18/213;G06F18/214;G06F18/24;G06N3/048;G06N3/08;G10L15/02;G10L25/03;G10L25/30;G10L25/51

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.04.23#实质审查的生效;2024.04.05#公开

摘要:本发明提供一种对不同设备或地点的自适应环境音频分类方法及系统,进行构建训练集和测试集,包括使用不同设备在不同城市采集不同场景的环境音,根据跨城市,跨设备和跨城市跨设备三种任务场景对采集数据进行相应的训练集和测试集分割;构建基于多领域分类器并联结构的深度学习网络模型,框架主体采用对MCD与基于GRL的领域分类器并联的结构,实现对音频中的场景,设备和城市特征的解耦;计算损失函数以进行模型领域自适应训练,其中包括由MCD对场景分类损失函数,以及基于GRL的领域分类器对场景,城市和设备分类损失函数;模型训练完成后,可得到自适应环境音频分类输出。本发明能在有限数据量下实现跨城市,跨设备的环境音频分类。

主权项:1.一种对不同设备或地点的自适应环境音频分类方法,其特征在于:包括以下步骤,步骤1,构建训练集和测试集,包括使用不同设备在不同城市采集不同场景的环境音,根据跨城市,跨设备和跨城市跨设备三种任务场景对采集数据进行相应的训练集和测试集分割;对于缺失有相关设备或城市标签的音频数据,根据所处训练集或数据集集位置赋予对应伪标签;步骤2,构建基于多领域分类器并联结构的深度学习网络模型,模型的框架主体采用对最大化分类差异MCD与基于梯度反转层GRL的领域分类器并联的结构,实现对音频中的场景,设备和城市特征的解耦,解决在不同数据域上ASC的自适应问题;该框架主体包含1个特征提取器G·|θg,2个场景分类器F1·|θs1,F2·|θs2,1个设备分类器Fd·|θd、1个城市分类器Fc·|θc和1个梯度反转层模块;针对不同任务,梯度反转层模块会对输入Fd·|θd和Fc·|θc的特征执行梯度反转或不执行梯度反转操作;步骤3,利用训练集和测试集数据样本计算损失函数以进行模型领域自适应训练,训练集包含场景、设备和城市标签,测试集中包含设备和城市标签;基于多领域分类器并联结构的深度学习网络模型的总损失函数包括由最大化分类差异MCD对场景分类损失函数,以及基于梯度反转层GRL的领域分类器对场景,城市和设备分类损失函数构成;步骤4,训练完成后,推理过程中仅保留特征提取器G·|θg和2个场景分类器F1·|θs1,F2·|θs2,将音频数据输入G·|θg得到相应特征,再将特征作为输入分别输入F1·|θs1,F2·|θs2并计算归一化指数函数的值,再取两个归一化指数函数值的平均值作为最后推理结果,得到自适应环境音频分类输出。

全文数据:

权利要求:

百度查询: 武汉大学 一种对不同设备或地点的自适应环境音频分类方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。