【发明公布】基于深度学习的声音识别方法、装置、云端设备及计算机装置_深圳市芯联信息技术有限公司_202311851618.4

申请/专利权人：深圳市芯联信息技术有限公司

申请日：2023-12-29

公开（公告）日：2024-04-02

公开（公告）号：CN117809691A

主分类号：G10L25/51

分类号：G10L25/51;G10L25/30;G10L25/03;G10L25/18

优先权：

专利状态码：在审-实质审查的生效

法律状态：2024.04.19#实质审查的生效;2024.04.02#公开

摘要：本发明涉及声音识别领域，具体涉及一种基于深度学习的声音识别方法、装置、云端设备及计算机装置，极大地提高了声音识别分类的准确性。方案包括基于sigmoid的分类头对训练集中的图片扩增出新的标签，扩增标签的规则为：对第一声源类别与第二声源类别进行分类时，将sigmoid激活函数获得的值作为扩增标签的标签位的值，标签位的个数与需要分类的声源类别个数对应；通过轻量化神经网络模型对第一声源类别与第二声源类别进行识别判断，若将第一声源类别误判为第二声源类别，则根据标签位的差异计算判断错误的损失程度，根据损失程度建立第一声源类别与第二声源类别的相关性；通过训练好的轻量化神经网络模型对不同的声源进行识别。本发明适用于声音识别分类。

主权项：1.基于深度学习的声音识别方法，其特征在于，包括：创建轻量化神经网络模型：在神经网络模型的第一层，将预处理后的梅尔频谱送入BatchNorm进行批归一化；连续使用分组的深度可分卷积，对梅尔频谱进行特征提取；接入全连接层作为模型的特征层，将卷积提取的特征图压缩成特征向量，接入softmax交叉熵损失函数；将特征层接入一个具有多个类别的全连接层，在这个全连接层后，每一个神经元对应接入一个sigmoid二分类交叉熵损失函数；训练轻量化神经网络模型：通过基于sigmoid的分类头对训练集中的图片扩增出新的标签，扩增标签的规则为：至少对第一声源类别与第二声源类别进行分类时，将对应sigmoid激活函数获得的值作为第一声源类别与第二声源类别扩增标签的标签位的值，标签位的个数与需要分类的声源类别个数对应；通过轻量化神经网络模型对第一声源类别与第二声源类别进行识别判断，若将第一声源类别误判为第二声源类别，或将第二声源类别误判为第一声源类别，则根据标签位的差异计算判断错误的损失程度，标签位的差异与计算判断错误的损失程度成正比，根据所述损失程度建立第一声源类别与第二声源类别的相关性；通过训练好的轻量化神经网络模型对不同的声源类别进行识别。

全文数据：

权利要求：

百度查询：深圳市芯联信息技术有限公司基于深度学习的声音识别方法、装置、云端设备及计算机装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

相关技术

相关技术

相关技术

相关技术

龙图腾网&IPTOP

【发明公布】基于深度学习的声音识别方法、装置、云端设备及计算机装置_深圳市芯联信息技术有限公司_202311851618.4

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务