买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于多尺度特征聚集的说话人认证方法及系统_华南理工大学_202110449128.6 

申请/专利权人:华南理工大学

申请日:2021-04-25

公开(公告)日:2024-03-19

公开(公告)号:CN113221673B

主分类号:G10L17/02

分类号:G10L17/02;G10L17/04;G10L17/18

优先权:

专利状态码:有效-授权

法律状态:2024.03.19#授权;2021.08.24#实质审查的生效;2021.08.06#公开

摘要:本发明提供的基于多尺度特征聚集的说话人认证方法,包括:提取Fbank特征;建立声纹特征向量提取模型以提取声纹特征向量;构建损失函数来训练声纹特征向量提取模型;确定认证阈值;提取用户注册语音样本的Fbank特征;将用户注册样本的Fbank特征输入声纹特征向量提取模型,获得注册样本的声纹特征向量;将用户认证样本的Fbank特征输入声纹特征向量提取模型,获得认证样本的声纹特征向量;将用户认证样本的声纹特征向量逐个与注册库中每个用户的声纹特征向量计算余弦相似度,根据余弦相似度确定是否认证通过。还提供了相应的认证系统。通过采用多尺度特征聚合器,使得能够在噪声语音或短时长语音中充分提取说话人的信息。

主权项:1.基于多尺度特征聚集的说话人认证方法,其特征在于,包括以下步骤:采集用户语音信号,提取Fbank特征;建立声纹特征向量提取模型,用于从Fbank中提取具有用户区分性的声纹特征向量,其中,所述声纹特征向量提取模型包括帧级特征提取器和多尺度特征聚集器,帧级特征提取器用于对Fbank特征处理后输出多个不同尺度的帧级特征,多尺度特征聚集器用于根据多个不同尺度的帧级特征得到声纹特征向量;确定用于区分用户身份的认证阈值;提取用户注册语音样本的Fbank特征;将用户注册样本的Fbank特征输入声纹特征向量提取模型,获得注册样本的声纹特征向量,并将注册样本的声纹特征向量加入注册库;提取用户认证语音样本的Fbank特征;将用户认证样本的Fbank特征输入声纹特征向量提取模型,获得认证样本的声纹特征向量;将用户认证样本的声纹特征向量逐个与注册库中每个用户的声纹特征向量计算余弦相似度,若相似度大于认证阈值,则认证通过,若相似度小于等于认证阈值,则认证失败;其中,所述帧级特征提取器采用装配有SE模块的ResNet模型,ResNet模型包括多个残差模块,多个残差模块用于输出尺度不同的多个帧级特征;所述多尺度特征聚集器包括平均池化层、G-VLAD池化层和用于降维的降维层,平均池化层用于将帧级特征提取器输出的帧级特征转化为二维帧级特征,G-VLAD池化层的数量与帧级特征提取器中的残差模块的数量相等,G-VLAD池化层与残差模块一一相应设置,每个G-VLAD池化层用于将相应残差模块输出的帧级特征拆分并聚集得到固定长度的一维特征向量,每个一维特征向量串联得到一维多尺度特征向量,降维层用于根据所述一维多尺度特征向量得到声纹特征向量;其中,在建立声纹特征向量提取模型后,还包括以下步骤:构建损失函数,用来训练声纹特征向量提取模型,所述损失函数包括基于余弦相似度的prototypical损失函数LP和有附加间隔的Softmax损失函数LLMS,即损失函数L的表达式如下:L=LP+LLMS#5其中, 式中,Sp,p表示同类样本之间的相似度,Sp,v表示异类样本之间的相似度,N表示训练集中类别总数,s表示附加间隔Softmax函数中的缩放因子,决定了附加间隔Softmax函数的类型,θ表示特征向量与分类层中对应权值向量之间的角度,yi表示分类正确的样本的标签,u表示分类错误的样本的标签的索引号,C表示训练集中类别总数,P表示从训练集中挑选的P个类别,p表示挑选出来的第p类。

全文数据:

权利要求:

百度查询: 华南理工大学 基于多尺度特征聚集的说话人认证方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。