恭喜中邮消费金融有限公司甘雨获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜中邮消费金融有限公司申请的专利说话人确认方法、装置、设备及存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119495306B 。
龙图腾网通过国家知识产权局官网在2025-05-30发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510073943.5,技术领域涉及:G10L17/04;该发明授权说话人确认方法、装置、设备及存储介质是由甘雨;何跃春;潘伟;温世欢;王琅设计研发完成,并于2025-01-17向国家知识产权局提交的专利申请。
本说话人确认方法、装置、设备及存储介质在说明书摘要公布了:本申请公开了一种说话人确认方法、装置、设备及存储介质,涉及信息处理技术领域,该方法包括:将待识别说话人对应的有效音频切分为若干个分句音频;将各分句音频输入至预设说话人确认模型,获得若干个说话人特征向量,预设说话人确认模型基于高质量样本音频和音频隐含向量信息构建;根据各说话人特征向量确定说话人平均特征向量;基于说话人平均特征向量和标准说话人特征向量对待识别说话人进行身份识别。应用上述技术方案,解决了现有技术中的说话人确认模型在实际应用场景中的低质量信道进行说话人识别时,准确率不高的技术问题。
本发明授权说话人确认方法、装置、设备及存储介质在权利要求书中公布了:1.一种说话人确认方法,其特征在于,所述的方法包括:将待识别说话人对应的有效音频切分为若干个分句音频;将各分句音频输入至预设说话人确认模型,获得若干个说话人特征向量,所述预设说话人确认模型基于高质量样本音频和音频隐含向量信息构建;根据各说话人特征向量确定说话人平均特征向量;基于所述说话人平均特征向量和标准说话人特征向量对所述待识别说话人进行身份识别;所述将待识别说话人对应的有效音频切分为若干个分句音频的步骤之前,还包括:通过预设音频恢复模型对低质量音频分别进行音频恢复处理和隐含向量提取处理,获得高质量音频和隐含向量信息,所述隐含向量信息为对所述低质量音频进行音频恢复时的音频信息;基于所述高质量音频和所述隐含向量信息对初始说话人确认模型进行训练,获得预设说话人确认模型,所述初始说话人确认模型中设置有:音频特征提取模块、长短语音统计聚合模块和特征投影模块;所述基于所述高质量音频和所述隐含向量信息对初始说话人确认模型进行训练,获得预设说话人确认模型的步骤,包括:通过所述音频特征提取模块基于所述隐含向量信息对所述高质量音频进行隐含向量添加,获得处理后的高质量音频;通过所述音频特征提取模块在通道维度和时序维度对所述处理后的高质量音频进行注意力变换,获得若干个不同通道的输入音频特征;通过所述长短语音统计聚合模块对所述输入音频特征进行特征切分,获得所述输入音频特征对应的短音频特征;生成所述输入音频特征对应的输入音频特征矩阵,以及所述短音频特征对应的短音频特征矩阵;对所述输入音频特征矩阵和所述短音频特征矩阵进行特征拼接融合处理,获得聚合音频特征矩阵;对所述聚合音频特征矩阵和隐含向量信息进行拼接处理,获得目标聚合音频特征矩阵;通过所述特征投影模块将所述聚合音频特征矩阵投影至低维空间,获得投影后的音频特征;基于所述投影后的音频特征对初始说话人确认模型进行训练,获得预设说话人确认模型。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中邮消费金融有限公司,其通讯地址为:510000 广东省广州市南沙区海滨路171号南沙金融大厦11楼1101之一J30;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。