【发明授权】一种基于非参贝叶斯模型的说话人分割聚类方法_西北工业大学深圳研究院;西北工业大学_202210524824.3

申请/专利权人：西北工业大学深圳研究院;西北工业大学

申请日：2022-05-13

公开（公告）日：2024-03-22

公开（公告）号：CN114970695B

主分类号：G06V10/762

分类号：G06V10/762;G10L15/08;G06V10/77;G06V10/74

优先权：["20220106 CN 2022100099401"]

专利状态码：有效-授权

法律状态：2024.03.22#授权;2022.09.16#实质审查的生效;2022.08.30#公开

摘要：本发明公开了一种基于非参贝叶斯模型的说话人分割聚类方法，该方法对狄利克雷过程混合模型进行方差渐近，从而获得了一个在聚类过程中可以根据数据不断产生新类的简单硬聚类方法DP‑means。本发明包括如下步骤：1先进行声学特征提取及语音活动性检测，以过滤掉非语音片段。之后将纯语音分段并将分段后的语音片段送入特征提取器得到x‑vector；2由于这类基于狄利克雷过程的聚类方法对初始化较为敏感，使用AHC或SC等方法进行初始聚类。筛选出初始聚类结果中包含x‑vector较多的类后，计算这些类的均值，并将其作为DP‑means的初始化类中心。随后用DP‑means进行聚类得到最终结果。本发明在多个数据集上的结果表明，能够将聚类效率大幅提高，同时具备了优越的性能和效率。

主权项：1.一种基于非参贝叶斯模型的说话人分割聚类方法，其特征在于，包括如下步骤：步骤1：说话人特征提取；步骤1-1：帧级别声学特征提取并分段：对原始语音进行分帧操作，对每一帧进行短时傅里叶变换STFT，得到横坐标为时间纵坐标为频率的二维时频谱；对每一帧的二维时频谱使用梅尔滤波器组获取FBank，梅尔频率和普通频率的转换关系如下：m＝2595log101+f7001f＝70010m2596-12其中m和f分别为梅尔频率和普通频率；梅尔滤波器组的频率响应为：其中p为时频谱中的频率，设置段长和步长对逐帧获取的FBank进行分段处理；步骤1-2：说话人特征提取：将分段后的FBank输入基于ResNet101的网络提取N×256维的x-vectors；ResNet101网络包含一个2D卷积层、标准ResNet块、一个统计池化层和一个线性变换层；得到N×256维的x-vector序列后进一步使用线性判别分析将x-vector向量进行降维，最终得到N×128维的x-vector序列；N是语音段数量；步骤2：对说话人特征进行聚类；步骤2-1：AHC初始聚类并进行类筛选；用余弦相似度计算步骤1-2得到的x-vector的相似度矩阵，然后再采用AHC对x-vector进行聚类；通过AHC获得的聚类结果中x-vector各类所包含的x-vector数量不同，设置阈值筛选出包含的x-vector数量大于阈值的类，计算每一个大于阈值的类的x-vector的均值作为下一步DP-means的初始类中心，共有k个；步骤2-2：DP-means聚类：计算每个x-vector与DP-means的每个类中心的相似度：simic＝cosxi，μc，forrc＝1，...，kandi＝1，...，N4其中μc为第c个类的中心、xi为第i个x-vector；k为类中心的数量，即为当前说话人的数量；对于第i个x-vector，c从1取到k：如果maxcsimic＜λ，则新建一个类，令：k加1，zi＝k5μk＝xi6其中maxcsimic为第i个x-vector与所有k个类中心的相似度中的最大值，zi为第i个x-vector所对应的类别标签，λ为DP-means的超参数，μk为第k个类的中心；如果maxcsimic＞λ，将第i个x-vector归入相似度最大值对应的类中，令：zi＝argmaxcsimic7其中，argmaxcsimic表示第i个x-vector与所有k个类中心的相似度中的最大值对应的类别标签；遍历每个x-vector，完成后更新每个类的均值作为新的类中心；步骤2-3：重复步骤2-2，直到目标函数收敛；其中x为x-vectors，lc表示每个类中x-vector的集合；目标函数收敛后，DP-means的分类结果即为最终的说话人分割聚类结果。

全文数据：

权利要求：

百度查询：西北工业大学深圳研究院;西北工业大学一种基于非参贝叶斯模型的说话人分割聚类方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种注塑机新型泵罩门板_恩格尔注塑机械(常州)有限公司_202322227242.1

下一篇：一种膏贴剂生产用传输装置_河南上恒医药科技有限公司_202322307134.5

相关技术

一种注塑机新型泵罩门板_恩格尔注塑机械(常州)有限公司_202322227242.1

一种膏贴剂生产用传输装置_河南上恒医药科技有限公司_202322307134.5

一种高效型苗种植机_海南勤璞园农业科技有限公司_202322496666.8

一种具有除臭机构的集成中央气体处理装置_龙岩忠友环境科技有限公司_202322062347.6

一种用于汽车保险杠加工的旋转喷漆装置_重庆渝湘智成汽车配件有限公司_202322547178.5

一种钝化复合功能层和TOPCon电池_中环新能(安徽)先进电池制造有限公司_202322011797.2

一种防堵污水管道_浩卓泵业(杭州)有限公司_202322092893.4

一种籽晶自动熔接结构_四川永祥光伏科技有限公司_202322431204.8

一种矿热炉扎眼机自动卸杆装置_乌海三美国际矿业有限公司_202322492884.4

一种农牧业通电线卷绕装置_山东恒通智能新材料有限公司_202322431480.4

一种印刷电路板加工用压膜装置_南通欧贝达电子科技有限公司_202322176231.5

一种尺寸可调节的中药材切片装置_安徽盛林国药饮片有限公司_202322230535.5

龙图腾网&IPTOP

【发明授权】一种基于非参贝叶斯模型的说话人分割聚类方法_西北工业大学深圳研究院;西北工业大学_202210524824.3

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务