申请/专利权人:浙江理工大学
申请日:2023-12-08
公开(公告)日:2024-03-12
公开(公告)号:CN117690441A
主分类号:G10L17/02
分类号:G10L17/02;G10L17/04;G10L17/14;G10L17/18;G10L15/16;G06N3/0455;G06N3/0464;G06N3/0895
优先权:
专利状态码:在审-实质审查的生效
法律状态:2024.03.29#实质审查的生效;2024.03.12#公开
摘要:本发明公开了一种通话场景说话人识别方法,涉及语音识别领域,本方法使用音频信号的FBank频谱作为说话人的浅层特征表示,通过声纹编码器增强浅层说话人特征表示中的各种局部模式,生成说话人特征的深度表示;然后使用这些深度表示训练PLDA分类器;最后使用结构重参数机制合并声纹编码器中冗余的网络层,并使用声纹编码器和PLDA分类器预测不同语音信号属于同一说话人的概率,不仅可以进行有效的说话人识别,还可以加快识别速度,满足实时性要求。
主权项:1.一种通话场景说话人识别方法,其特征在于,包括以下步骤:S1、对音频信号进行处理,并计算处理后音频信号的FBank频谱,得到语音数据集;S2、构建一个包含声纹编码器和声纹解码器的第一神经网络模型,基于语音数据集,通过自监督方式对第一神经网络模型进行训练,得到预训练的声纹编码器;S3、构建一个基于多层感知机的说话人分类器,即第一说话人分类器;将预训练的声纹编码器与第一说话人分类器串联构成的网络作为第二神经网络模型;S4、通过语音数据集对第二神经网络模型中的预训练的声纹编码器进行训练,得到微调后的声纹编码器;S5、建立一个基于PLDA的说话人分类器,即第二说话人分类器;将微调后的声纹编码器与第二说话人分类器串联构成的网络作为第三神经网络模型;S6、通过语音数据集对第三神经网络模型中的第二说话人分类器进行训练,得到训练后的第三神经网络模型;S7、基于结构重参数机制压缩训练后的第三神经网络模型,得到第四神经网络模型;通过第四神经网络模型对目标音频信号进行识别,完成通话场景说话人识别。
全文数据:
权利要求:
百度查询: 浙江理工大学 一种通话场景说话人识别方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。