买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于跨模型两阶段训练的声音事件检测方法_湖南大学_202410021647.6 

申请/专利权人:湖南大学

申请日:2024-01-08

公开(公告)日:2024-04-12

公开(公告)号:CN117877516A

主分类号:G10L25/30

分类号:G10L25/30;G06N3/0455;G06N3/0464;G06N3/0895;G06N3/0442;G10L25/18;G10L25/24;G10L25/21;G10L15/06

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.04.30#实质审查的生效;2024.04.12#公开

摘要:本发明公开一种基于跨模型两阶段训练的声音事件检测方法,采用两阶段训练方式通过半监督学习方法训练两种不同神经网络模型,能够在时间帧层面对多种不同类型的声音事件进行检测。其特征在于,包括以下步骤:步骤S1,提取音频样本的对数梅尔谱特征;步骤S2,搭建改进音频频谱Transformer模型;步骤S3,训练改进音频频谱Transformer模型;步骤S4,使用改进音频频谱Transformer模型为无标签数据生成伪弱标签;步骤S5,搭建卷积循环神经网络;步骤S6,训练卷积循环神经网络;步骤S7,使用卷积循环神经网络获得声音事件检测结果。本发明极大地减少了对数据标签的需求,提升了模型的训练效果,同时分别优化和设计神经网络模型,提高了多音频声音事件检测的精度。

主权项:1.一种基于跨模型两阶段训练的声音事件检测方法,采用两阶段训练方式通过半监督学习方法训练两种不同神经网络模型,能够在时间帧层面对多种不同类型的声音事件进行检测。其特征在于,包括以下步骤:S1、提取音频样本的对数梅尔谱特征:对音频样本进行预加重、分帧、加窗,然后提取每一时间帧的对数梅尔谱特征;S2、搭建改进音频频谱Transformer模型:使用的Transformer模型是对音频频谱Transformer模型AST进行了改进,在Transformer编码器中增加深度卷积层并引入卷积归纳偏置模块,得到改进Transformer模型;S3、训练改进音频频谱Transformer模型:使用从无标签数据和弱标签数据样本中提取的对数梅尔谱特征作为输入,训练Transformer模型;S4、使用改进音频频谱Transformer模型为无标签数据生成伪弱标签:采用已训练的Transformer模型辨识无标签数据样本的声音事件类别,将其作为无标签数据样本的伪弱标签;S5、搭建卷积循环神经网络:卷积循环神经网络包括卷积神经网络、双向GRU网络和Sigmoid输出层;S6、训练卷积循环神经网络:使用从弱标签样本和使用伪弱标签的无标签样本中提取的对数梅尔谱特征作为输入,训练卷积循环神经网络;S7、使用卷积循环神经网络获得声音事件检测结果:采用已训练的卷积循环神经网络辨识待测样本每一时间帧的声音事件,得到声音事件检测结果。

全文数据:

权利要求:

百度查询: 湖南大学 一种基于跨模型两阶段训练的声音事件检测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。