买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于非参贝叶斯模型的说话人分割聚类方法_西北工业大学深圳研究院;西北工业大学_202210524824.3 

申请/专利权人:西北工业大学深圳研究院;西北工业大学

申请日:2022-05-13

公开(公告)日:2024-03-22

公开(公告)号:CN114970695B

主分类号:G06V10/762

分类号:G06V10/762;G10L15/08;G06V10/77;G06V10/74

优先权:["20220106 CN 2022100099401"]

专利状态码:有效-授权

法律状态:2024.03.22#授权;2022.09.16#实质审查的生效;2022.08.30#公开

摘要:本发明公开了一种基于非参贝叶斯模型的说话人分割聚类方法,该方法对狄利克雷过程混合模型进行方差渐近,从而获得了一个在聚类过程中可以根据数据不断产生新类的简单硬聚类方法DP‑means。本发明包括如下步骤:1先进行声学特征提取及语音活动性检测,以过滤掉非语音片段。之后将纯语音分段并将分段后的语音片段送入特征提取器得到x‑vector;2由于这类基于狄利克雷过程的聚类方法对初始化较为敏感,使用AHC或SC等方法进行初始聚类。筛选出初始聚类结果中包含x‑vector较多的类后,计算这些类的均值,并将其作为DP‑means的初始化类中心。随后用DP‑means进行聚类得到最终结果。本发明在多个数据集上的结果表明,能够将聚类效率大幅提高,同时具备了优越的性能和效率。

主权项:1.一种基于非参贝叶斯模型的说话人分割聚类方法,其特征在于,包括如下步骤:步骤1:说话人特征提取;步骤1-1:帧级别声学特征提取并分段:对原始语音进行分帧操作,对每一帧进行短时傅里叶变换STFT,得到横坐标为时间纵坐标为频率的二维时频谱;对每一帧的二维时频谱使用梅尔滤波器组获取FBank,梅尔频率和普通频率的转换关系如下:m=2595log101+f7001f=70010m2596-12其中m和f分别为梅尔频率和普通频率;梅尔滤波器组的频率响应为: 其中p为时频谱中的频率,设置段长和步长对逐帧获取的FBank进行分段处理;步骤1-2:说话人特征提取:将分段后的FBank输入基于ResNet101的网络提取N×256维的x-vectors;ResNet101网络包含一个2D卷积层、标准ResNet块、一个统计池化层和一个线性变换层;得到N×256维的x-vector序列后进一步使用线性判别分析将x-vector向量进行降维,最终得到N×128维的x-vector序列;N是语音段数量;步骤2:对说话人特征进行聚类;步骤2-1:AHC初始聚类并进行类筛选;用余弦相似度计算步骤1-2得到的x-vector的相似度矩阵,然后再采用AHC对x-vector进行聚类;通过AHC获得的聚类结果中x-vector各类所包含的x-vector数量不同,设置阈值筛选出包含的x-vector数量大于阈值的类,计算每一个大于阈值的类的x-vector的均值作为下一步DP-means的初始类中心,共有k个;步骤2-2:DP-means聚类:计算每个x-vector与DP-means的每个类中心的相似度:simic=cosxi,μc,forrc=1,...,kandi=1,...,N4其中μc为第c个类的中心、xi为第i个x-vector;k为类中心的数量,即为当前说话人的数量;对于第i个x-vector,c从1取到k:如果maxcsimic<λ,则新建一个类,令:k加1,zi=k5μk=xi6其中maxcsimic为第i个x-vector与所有k个类中心的相似度中的最大值,zi为第i个x-vector所对应的类别标签,λ为DP-means的超参数,μk为第k个类的中心;如果maxcsimic>λ,将第i个x-vector归入相似度最大值对应的类中,令:zi=argmaxcsimic7其中,argmaxcsimic表示第i个x-vector与所有k个类中心的相似度中的最大值对应的类别标签;遍历每个x-vector,完成后更新每个类的均值作为新的类中心;步骤2-3:重复步骤2-2,直到目标函数收敛;其中x为x-vectors,lc表示每个类中x-vector的集合;目标函数收敛后,DP-means的分类结果即为最终的说话人分割聚类结果。

全文数据:

权利要求:

百度查询: 西北工业大学深圳研究院;西北工业大学 一种基于非参贝叶斯模型的说话人分割聚类方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。