买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于全局注意力机制的DenseNet-LSTM-ED的声纹识别方法_江苏五正信息科技有限公司_202310826924.6 

申请/专利权人:江苏五正信息科技有限公司

申请日:2023-07-07

公开(公告)日:2023-10-10

公开(公告)号:CN116863939A

主分类号:G10L17/02

分类号:G10L17/02;G10L17/22;G10L17/18;G10L25/18;G10L25/30;G10L25/45;G10L25/21

优先权:

专利状态码:在审-公开

法律状态:2023.10.10#公开

摘要:本发明公开了一种基于全局注意力机制的DenseNet‑LSTM‑ED的声纹识别方法,属于声纹识别技术领域,该方法首先对语音信号分割、加窗、傅里叶变换、能量密度谱、对数变换和彩色映射得到语音信号与之对应的语谱图;然后分别利用DenseNet模块、LSTM单元和ED模块分别对语谱图进行处理,将DenseNet模块、LSTM单元的处理结果融合形成时空融合信息,ED模块对语谱图进行处理形成增强信息;接着将时空融合信息与增强信息融合形成时空增强信息,并使用全局注意力机制对其赋予不同的权重,来增加关键帧语音对识别结果的贡献度,并通过Softmax损失函数与CenterLoss损失函数联合监督的方式来实现说话人识别的分类,本发明能够有效提高声纹识别的准确率。

主权项:1.一种基于全局注意力机制的DenseNet-LSTM-ED的声纹识别方法,包括以下步骤:S100:通过对语音信号分割、加窗、傅里叶变换、能量密度谱、对数变换和彩色映射得到语音信号与之对应的语谱图;S200:将步骤S100得到的语谱图作为输入,输入至DenseNet模块进行空间特征提取,得到语音信号的空间信息;S300:将步骤S100得到语谱图的信息复制一份送到LSTM单元中,经过t个LSTM单元后,以便于充分提取语音信号的时序信息;S400:将步骤S100得到语谱图的信息复制一份送到ED模块中,ED模块包括对语谱图的信息进行反卷积处理、对语谱图的信息进行趋势信息处理,并对反卷积处理后的信息和趋势信息处理后的信息进行融合,对融合的反卷积处理后的信息和趋势处理后的信息进行卷积处理,生成增强信息;S500:将DenseNet模块和LSTM单元的处理结果进行拼接,形成时空融合信息,将时空融合信息和增强信息ED进行信息融合形成时空增强信息,并对时空增强信息使用注意力机制赋予不同的权重,使用Softmax损失函数与CenterLoss损失函数联合形成总损失函数,利用总损失函数识别声纹的类别。

全文数据:

权利要求:

百度查询: 江苏五正信息科技有限公司 一种基于全局注意力机制的DenseNet-LSTM-ED的声纹识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。