买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】说话人识别方法、装置、计算机设备及存储介质_平安科技(深圳)有限公司_202110735212.4 

申请/专利权人:平安科技(深圳)有限公司

申请日:2021-06-30

公开(公告)日:2024-03-12

公开(公告)号:CN113436633B

主分类号:G10L17/02

分类号:G10L17/02;G10L17/04;G10L17/12

优先权:

专利状态码:有效-授权

法律状态:2024.03.12#授权;2021.11.16#实质审查的生效;2021.09.24#公开

摘要:本申请实施例属于人工智能领域,涉及一种说话人识别方法、装置、计算机设备及存储介质,应用于智慧城市领域中,方法包括:获取混合语音以及目标说话人的参考语音;从参考语音中提取参考语音表征;将参考语音表征输入混合提取模型,以根据参考语音表征,从混合语音中获取目标说话人的估计掩膜,估计掩膜中的掩码与混合语音中的语音信号点一一对应;将掩码和语音信号点对应相乘,得到目标说话人的预测语音;计算预测语音和参考语音的概率线性判断得分;当概率线性判断得分处于预设的分值区间时,确定混合语音中包含目标说话人的语音。此外,本申请还涉及区块链技术,参考语音表征可存储于区块链中。本申请提高了说话人识别的准确性。

主权项:1.一种说话人识别方法,其特征在于,包括下述步骤:获取混合语音以及目标说话人的参考语音;通过参考提取模型从所述参考语音中提取参考语音表征;将所述参考语音表征输入混合提取模型,以指示所述混合提取模型根据所述参考语音表征,从所述混合语音中获取所述目标说话人的估计掩膜,所述估计掩膜中的掩码与所述混合语音中的语音信号点一一对应;将所述估计掩膜中的掩码和所述混合语音中的语音信号点对应相乘,得到所述目标说话人的预测语音;计算所述预测语音和所述参考语音的概率线性判断得分;当所述概率线性判断得分处于预设的分值区间时,确定所述混合语音中包含所述目标说话人的语音;所述获取混合语音以及目标说话人的参考语音的步骤之前,还包括:获取针对目标说话人的训练标准语音、训练参考语音和训练混合语音,所述训练混合语音是在所述训练标准语音中添加干扰语音得到的;通过初始参考提取模型从所述训练参考语音中提取参考语音表征;将所述参考语音表征输入初始混合提取模型,以指示所述初始混合提取模型将所述参考语音表征作为先验信息,从所述训练混合语音中提取所述目标说话人的预测表征;将所述预测表征输入所述初始混合提取模型中的掩膜计算层,得到估计掩膜,所述估计掩膜中的掩码与所述训练混合语音中的语音信号点一一对应;将所述估计掩膜中的掩码和所述训练混合语音中的语音信号点进行对应点乘,得到所述目标说话人的预测语音;基于所述估计掩膜、所述预测语音、所述训练标准语音和所述训练混合语音计算联合损失;根据所述联合损失对所述初始参考提取模型和所述初始混合提取模型进行调整,直至所述联合损失满足训练停止条件,得到参考提取模型和混合提取模型;所述初始混合提取模型包括若干层顺序相连的预测表征提取层;所述将所述参考语音表征输入初始混合提取模型,以指示所述初始混合提取模型将所述参考语音表征作为先验信息,从所述训练混合语音中提取所述目标说话人的预测表征的步骤包括:将所述参考语音表征和所述训练混合语音进行拼接,并输入第一层预测表征提取层,所述参考语音表征为先验信息,所述训练混合语音为来源信息,所述先验信息用于指示预测表征提取层从所述来源信息中提取预测表征;对于第一层以后的预测表征提取层,将所述参考语音表征和所述预测表征进行拼接,并输入下一层预测表征提取层进行迭代,直至最后一层预测表征提取层,所述参考语音表征为先验信息,所述预测表征为来源信息,所述先验信息用于指示预测表征提取层从所述来源信息中提取预测表征;将所述最后一层预测表征提取层输出的预测表征确定为所述目标说话人的预测表征。

全文数据:

权利要求:

百度查询: 平安科技(深圳)有限公司 说话人识别方法、装置、计算机设备及存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。