【发明授权】一种端到端的说话人聚类方法及系统_四川长虹电器股份有限公司_201910575862.X

导航：龙图腾网> 最新专利技术> 一种端到端的说话人聚类方法及系统_四川长虹电器股份有限公司_201910575862.X

申请/专利权人：四川长虹电器股份有限公司

申请日：2019-06-28

公开（公告）日：2021-04-27

公开（公告）号：CN110289002B

主分类号：G10L17/02(20130101)

分类号：G10L17/02(20130101);G10L17/04(20130101);G10L17/14(20130101);G10L17/18(20130101)

优先权：

专利状态码：有效-授权

法律状态：2021.04.27#授权;2019.10.29#实质审查的生效;2019.09.27#公开

摘要：本发明公开了一种端到端的说话人聚类方法，包括以下步骤：S001：收集至少两人的说话人语音数据；S002：提取语音数据的声学特征；S003：设计一个说话人聚类神经网络模型，用于聚类和分类；S004：设计一个说话人识别神经网络模型，用于预训练模型；S003：采用已知标签信息的说话人语音数据训练说话人识别神经网络模型；S004：采用说话人识别模型参数初始化说话人聚类神经网络模型；S005：采用未知标签的说话人语音数据训练说话人聚类神经网络模型；S006：说话人聚类神经网络模型收敛，输出未知标签的说话人语音数据的标签信息。本发明可以大大减少人工参与数据标定的工作量，也有助于提高说话人识别模型的精度。

主权项：1.一种端到端的说话人聚类方法，其特征在于包括以下步骤：S001：收集至少两人的说话人语音数据；S002：提取语音数据的声学特征；所述声学特征包括梅尔频率倒谱系数MFCC和power-normalizedcepstralcoefficientsPNCC；S003：设计一个说话人聚类神经网络模型，用于聚类和分类；S004：设计一个说话人识别神经网络模型，用于预训练模型；S003：采用已知标签信息的说话人语音数据训练说话人识别神经网络模型；所述的说话人识别神经网络模型用于得到说话人聚类神经网络模型的初始参数，在一个已知说话人录音标签的数据集上训练神经网络直到收敛，然后将预训练神经网络的参数初始化聚类神经网络的参数；S004：采用说话人识别模型参数初始化说话人聚类神经网络模型；S005：采用未知标签的说话人语音数据训练说话人聚类神经网络模型；说话人聚类神经网络模型的训练方法，包括以下步骤：S0：将说话人录音的声学特征输入神经网络中，提取说话人录音数据的深度声纹特征；S1：将S0中说话人的深度声纹特征进行聚类，输出说话人录音的聚类标签；S2：将S0中说话人的深度声纹特征进行分类，得到分类标签；S3：计算S1中说话人录音的聚类标签和S2中的分类标签的分类误差，得到聚类神经网络的分类误差；S4：将S3中的分类误差反馈到聚类神经网络中，更新聚类神经网络的参数；S5：重复S0至S4的步骤，直到聚类神经网络收敛；S6：待聚类神经网络收敛后，即可输出说话人录音数据的最终标签；S006：说话人聚类神经网络模型收敛，输出未知标签的说话人语音数据的标签信息；所述神经网络包括卷积神经网络、递归神经网络和延时神经网络中的一种或者多种网络的组合。

全文数据：一种端到端的说话人聚类方法及系统技术领域本发明涉及一种说话人识别学习方法及系统，具体涉及一种端到端的说话人聚类方法及系统。背景技术近几年来，随着人工智能技术的快速发展，越来越多的带有人工智能技术的产品出现在人们的日常生活中，特别是近年的智能音箱异军突起。其中声纹识别技术几乎是所有的智能音箱的标配，用户使用自己的声音就可以完成账户登录、购物支付等。深度学习的发展使得很多领域都取得了惊人的进步，包括说话人识别领域，然而现在通过改变网络的结构对分类准确率的影响已经越来越小，因此人们把关注点放在扩充数据集上，现有的常见数据集规模相对现在深度学习发展水平来说也是有些不够的，然而扩充数据集是一件困难的事，许多时候需要进行人工的标注，而人工标注是费时费力。因此使用无监督的方法生成更大的数据集也成为了现在研究的需求。传统的聚类方法主要是针对固定特征之上的线性模型而设计的，只能针对某些数据有好的效果，泛化性差。为了解决深度学习在说话人识别领域数据不足的问题，提出了一种端到端的说话人聚类方法及系统，首先预训练一个说话人识别网络模型，然后用这个预训练的说话人识别模型初始化聚类网络模型，其中聚类网络模型有聚类和分类两个输出分支，聚类分支输出的标签信息用于分类分支的输入真实标签，计算聚类网络模型的分类误差，分类误差反馈回聚类网络模型，更新聚类网络模型的参数，如此迭代直到聚类网络模型收敛，最终输出说话人语音的标签信息。通过此系统可以获取海量的带标签的说话人录音数据用于训练说话人识别模型，大大减少人工参与数据标定的工作量，同时也有助于提高说话人识别模型的精度。发明内容本发明的目的在于克服现有技术存在的人工标定工作量极大的问题，提供一种端到端的说话人聚类方法及系统。本发明是这样实现的：一种端到端的说话人聚类方法，包括以下步骤：S001：收集至少两人的说话人语音数据；S002：提取语音数据的声学特征；S003：设计一个说话人聚类神经网络模型，用于聚类和分类；S004：设计一个说话人识别神经网络模型，用于预训练模型；S003：采用已知标签信息的说话人语音数据训练说话人识别神经网络模型；S004：采用说话人识别模型参数初始化说话人聚类神经网络模型；S005：采用未知标签的说话人语音数据训练说话人聚类神经网络模型；S006：说话人聚类神经网络模型收敛，输出未知标签的说话人语音数据的标签信息。更进一步的方案是：声学特征提取模块提取说话人语音的声学特征，声学特征包括但不仅限梅尔频率倒谱系数MFCC和power-normalizedcepstralcoefficientsPNCC。更进一步的方案是：所述的神经网络包括但不限于卷积神经网络CNN、递归神经网络RNN、LSTM、GRU和延时神经网络TDNN中的一种或者多种网络的组合。更进一步的方案是：所述的说话人识别神经网络模型用于得到说话人聚类神经网络模型的初始参数。在一个已知说话人录音标签的数据集上训练神经网络直到收敛，然后将预训练神经网络的参数初始化聚类神经网络的参数。更进一步的方案是：训练说话人模块中聚类神经网络模型的训练方法，包括以下步骤：S0：将说话人录音的声学特征输入神经网络中，提取说话人录音数据的深度声纹特征；S1：将S0中说话人的深度声纹特征进行聚类，输出说话人录音的聚类标签；S2：将S0中说话人的深度声纹特征进行分类，得到分类标签；S3：计算S1中说话人录音的聚类标签和S2中的分类标签的分类误差，得到聚类神经网络的分类误差；S4：将S3中的分类误差反馈到聚类神经网络中，更新聚类神经网络的参数；S5：重复S0至S4的步骤，直到聚类神经网络收敛；S6：待聚类神经网络收敛后，即可输出说话人录音数据的最终标签。更进一步的方案是：提取分类特征和聚类特征的神经网络的参数是共享的，聚类结果作为伪标签提供给分类器进行训练，通过分类的训练进行反向传播优化神经网络的参数。更进一步的方案是：所述的聚类算法包括但不仅限于k均值聚类、凝聚层级聚类、混合高斯模型聚类和谱聚类中的一种或者多种融合。本发明还提供了一种端到端的说话人聚类系统，包括顺序相连的语音采集和存储模块、声学特征提取模块、神经网络模型预训练模块和说话人聚类模块，其中：语音采集和存储模块，用于采集和存储语音数据；声学特征提取模块，用于提取说话人语音的声学特征；神经网络模型预训练模块，用于得到聚类神经网络的初始参数；说话人聚类模块，用于输出说话人语音数据的标签。本发明首先预训练一个说话人识别网络模型，然后用这个预训练的说话人识别模型初始化聚类网络模型，其中聚类网络模型有聚类和分类两个输出分支，聚类分支输出的标签信息用于分类分支的输入真实标签，计算聚类网络模型的分类误差，分类误差反馈回聚类网络模型，更新聚类网络模型的参数，如此迭代直到聚类网络模型收敛，最终输出说话人语音的标签信息。通过此系统可以获取海量的带标签的说话人录音数据用于训练说话人识别模型，大大减少人工参与数据标定的工作量，同时也有助于提高说话人识别模型的精度。附图说明图1：语音采集和存储模块；图2：声学特征提取模块；图3：神经网络模型预训练模块；图4：说话人聚类模块；图5：端到端的说话人聚类系统示意图。具体实施方式本发明实现了一种端到端的说话人聚类方法及系统，能够高效且准确地对说话人录音数据进行标定。为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例进一步详细说明如下。实施例一本发明提出了一种端到端的说话人聚类方法，具体包括：1收集至少两人的说话人语音数据待聚类的语音数据的标签类别数量必须两人及以上。2提取语音数据的声学特征提取梅尔频率倒谱系数特征，假设帧长为25ms，步长为10ms，因此每个帧长内就会得到一个39维的特征向量，假设有N帧，这样每条语音可以得到39xN的二维mfcc特征矩阵。3设计一个说话人聚类神经网络模型，作为聚类和分类模型设计一个卷积神经网络，两个输出分支：分类分支和聚类分支。4设计一个说话人识别神经网络模型，作为预训练模型网络结构与说话人聚类神经网络模型的分类分支一致。5采用已知标签信息的说话人语音数据训练说话人识别神经网络模型，步骤如下：5-1假设一个已知说话人标签的语音数据集，类别数为M类；5-2按照B1的步骤的提取MFCC声学特征；5-3设计一个卷积神经网络，其中最后一个分类层输出设置为M；5-4训练卷积神经网络，直到收敛，停止训练；5-5保存卷积神经网络的模型，即预训练模型参数。6采用说话人识别模型参数初始化说话人聚类神经网络模型采用说话人识别神经网络模型的参数初始化说话人聚类神经网络模型的分类分支，但忽略其中最后一层即分类层，此层采用随机初始化的方式。7采用未知标签的说话人语音数据训练说话人聚类神经网络模型7-1将未知标签但总类别数为N0的说话人语音数据集D提取MFCC声学特征；7-2将数据集D输入到聚类的卷积神经网络模型，提取深度声纹特征；7-3将深度特征采用K均值聚类算法进行聚类，得到每一个语音的聚类标签，总类别数为N0；7-4将深度声纹特征进行分类，得到每一个语音的分类标签，总类别数为N0；7-5计算聚类标签和分类标签的误差，得到聚类的卷积神经网络的分类误差；7-6将B36中的分类误差反向传播到聚类的卷积神经网络，更新每层的网络参数；7-7重复7-2至7-6步骤，直到网络收敛；7-8网络收敛之后，从聚类分支即可得到每个录音的标签。实施例二本发明提出了一种端到端的说话人聚类系统，具体实施例如下：一种端到端的说话人聚类系统，整体结构如附图5所示，具体的包括以下模块：1语音采集和存储模块，如附图1所示获取语音数据并存储在本地端。2声学特征提取模块，如附图2所示提取说话人语音的声学特征，作为神经网络的输入。3神经网络模型预训练模块，如附图3所示用于得到聚类神经网络的初始参数3-1已知说话人标签的数据集有M类；3-2设定神经网络的输出类别为M类；3-3训练神经网络直到收敛；3-4得到预训练模型参数。4说话人聚类模块，如附图4所示4-1将说话人录音的声学特征输入聚类神经网络中，提取说话人录音数据的深度声纹特征；4-2将4-1中说话人的深度声纹特征进行聚类，输出说话人录音的聚类标签；4-3将4-1中说话人的深度声纹特征进行分类，得到分类标签；4-4计算4-2中说话人录音的聚类标签和4-3中的分类标签的分类误差，得到聚类神经网络的分类误差；4-5将4-4中的分类误差反馈到聚类神经网络中，更新聚类神经网络的参数；4-6重复4-1至4-5的步骤，直到聚类神经网络收敛；4-7待聚类神经网络收敛后，即可输出说话人录音数据的最终标签。综上所述，本发明通过语音采集和存储模块、声学特征提取模块、神经网络模型预训练模块和说话人聚类模块实现了一种端到端的说话人聚类方法及系统。本领域普通技术人员可以理解，实现上述实施例方法中的全部或部分流程是可以通各种算法程序实现的，所述的程序可以存储于计算机可读取存储介质中，该程序在执行时，可包括如上各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体Read-OnlyMemory,ROM或随机存储记忆体RandomAccessMemory,RAM等。以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。尽管这里参照本发明的解释性实施例对本发明进行了描述，上述实施例仅为本发明较佳的实施方式，本发明的实施方式并不受上述实施例的限制，应该理解，本领域技术人员可以设计出很多其他的修改和实施方式，这些修改和实施方式将落在本申请公开的原则范围和精神之内。

权利要求：1.一种端到端的说话人聚类方法，其特征在于包括以下步骤：S001：收集至少两人的说话人语音数据；S002：提取语音数据的声学特征；S003：设计一个说话人聚类神经网络模型，用于聚类和分类；S004：设计一个说话人识别神经网络模型，用于预训练模型；S003：采用已知标签信息的说话人语音数据训练说话人识别神经网络模型；S004：采用说话人识别模型参数初始化说话人聚类神经网络模型；S005：采用未知标签的说话人语音数据训练说话人聚类神经网络模型；S006：说话人聚类神经网络模型收敛，输出未知标签的说话人语音数据的标签信息。2.根据权利要求1所述端到端的说话人聚类方法，其特征在于：所述声学特征包括梅尔频率倒谱系数MFCC和power-normalizedcepstralcoefficientsPNCC。3.根据权利要求1所述端到端的说话人聚类方法，其特征在于：所述的神经网络包括卷积神经网络、递归神经网络和延时神经网络中的一种或者多种网络的组合。4.根据权利要求1所述端到端的说话人聚类方法，其特征在于：所述的说话人识别神经网络模型用于得到说话人聚类神经网络模型的初始参数，在一个已知说话人录音标签的数据集上训练神经网络直到收敛，然后将预训练神经网络的参数初始化聚类神经网络的参数。5.根据权利要求1所述端到端的说话人聚类方法，其特征在于：说话人聚类神经网络模型的训练方法，包括以下步骤：S0：将说话人录音的声学特征输入神经网络中，提取说话人录音数据的深度声纹特征；S1：将S0中说话人的深度声纹特征进行聚类，输出说话人录音的聚类标签；S2：将S0中说话人的深度声纹特征进行分类，得到分类标签；S3：计算S1中说话人录音的聚类标签和S2中的分类标签的分类误差，得到聚类神经网络的分类误差；S4：将S3中的分类误差反馈到聚类神经网络中，更新聚类神经网络的参数；S5：重复S0至S4的步骤，直到聚类神经网络收敛；S6：待聚类神经网络收敛后，即可输出说话人录音数据的最终标签。6.根据权利要求1所述端到端的说话人聚类方法，其特征在于：S003中，用于提取分类和聚类特征的神经网络的参数是共享的，聚类结果作为伪标签提供给分类器进行训练，通过分类的训练进行反向传播优化神经网络的参数。7.根据权利要求1或5或6所述端到端的说话人聚类方法，其特征在于：聚类采用的算法包括k均值聚类、凝聚层级聚类、混合高斯模型聚类和谱聚类中的一种或者多种融合。8.一种端到端的说话人聚类系统，其特征在于：包括顺序相连的语音采集和存储模块、声学特征提取模块、神经网络模型预训练模块和说话人聚类模块，其中：语音采集和存储模块，用于采集和存储语音数据；声学特征提取模块，用于提取说话人语音的声学特征；神经网络模型预训练模块，用于得到聚类神经网络的初始参数；说话人聚类模块，用于输出说话人语音数据的标签。

百度查询：四川长虹电器股份有限公司一种端到端的说话人聚类方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种旋转式防撞护栏和波形梁护栏的过渡连接结构_浙江飞虹交通设施有限公司_202322419695.4

下一篇：一种农牧业通电线卷绕装置_山东恒通智能新材料有限公司_202322431480.4

相关技术

一种旋转式防撞护栏和波形梁护栏的过渡连接结构_浙江飞虹交通设施有限公司_202322419695.4

一种农牧业通电线卷绕装置_山东恒通智能新材料有限公司_202322431480.4

一种液压锁密闭性测试装置_靖江市长源液压机械有限公司_202322518953.4

一种籽晶自动熔接结构_四川永祥光伏科技有限公司_202322431204.8

一种双卧轴连续式混凝土搅拌装置_广安金都混凝土有限公司_202322291527.1

一种用于汽车保险杠加工的旋转喷漆装置_重庆渝湘智成汽车配件有限公司_202322547178.5

一种高效散热电源_广州市力为电子有限公司_202322175013.X

一种煤矿井下局部通风机远程开停装置_贵州贵能投资股份有限公司_202322392209.4

一种火车集卡装卸装置_杭州奥拓机电股份有限公司_202322190678.8

电池壳清洗用旋转框架安装槽的限位结构_无锡金杨丸伊电子有限公司_202322328357.X

一种冷渣机料渣前置破碎防卡料机构_青岛奥利斯电力设备有限公司_202322163598.3

一种打印机线路板加工用吸附输送轨道_威海光大光电有限公司_202322481598.8

说话相关技术

一种视频中说话人定位的方法、装置及计算机存储介质_清华珠三角研究院_202011373972.7

一种基于声学后验概率的任意说话人语音转换系统及方法_江苏清微智能科技有限公司_202011057900.1

一种说话人识别方法、装置、存储介质及设备_科大讯飞股份有限公司_202110807643.7

一种基于视线追踪技术的目标说话人语音提取方法及系统_本相空间(珠海)科技有限公司_202311729285.8

一种基于双层知识蒸馏说话人模型压缩系统和方法_江苏清微智能科技有限公司_202011079752.3

基于唇部时序关键点的人说话检测方法、计算机设备及存储介质_黑芝麻智能科技有限公司_202410083258.6

一种基于自适应类边界间隔的说话人识别方法、系统及存储介质_东北林业大学_202311867976.4

一种耳语说话人识别模型训练方法和装置_北京建筑大学_202410250740.4

一种针对说话人识别系统对抗样本的防御方法_贵州师范大学_202310918349.2

用于语音转换的可控说话者音频表示的方法及装置_清华大学_202410063968.2

聚相关技术

一种蜂群银窝聚能静音装置_朱杰益_201811522848.5

聚晶金刚石制作的胸针_河南景链新材料有限公司_202322558617.2

经填充的聚芳醚酮粉末、为此的制造方法及其用途_阿科玛法国公司_202080083614.4

一种聚羧酸保坍剂及其制备方法_重庆建研科之杰建材有限公司_202111498836.5

一种常温低聚水簇的制备装置_北京石尚新材料科技有限公司_202321968746.2

一种聚双环戊二烯复合材料及其制备方法_中国石油化工股份有限公司_201910999181.6

生物基耐溶剂聚氨酯预聚体及其制备方法和应用_山东一诺威聚氨酯股份有限公司_202311825767.3

一种由虾壳制备低聚壳聚糖用清洗装置_沧州市农林科学院_202322615491.8

一种新型聚多巴胺限域氧化沉积方法与应用_中国人民解放军陆军军医大学第二附属医院_202311078553.4

一种聚磷酸铵阻燃剂生产用氨气回收装置_浙江富锦新材料有限公司_202322318718.2

方法相关技术

图像处理方法、图像处理模型和训练方法_北京百度网讯科技有限公司_202310251906.X

能力确定方法、上报方法、装置、设备及存储介质_北京小米移动软件有限公司_202280001087.7

定子及其制造方法_LG麦格纳电子动力总成有限公司_202110012057.3

通信方法及装置_华为技术有限公司_202211296381.3

通信方法及装置_华为技术有限公司_202010617172.9

信息处理方法_丰田自动车株式会社_202311358127.6

曝光方法、曝光装置、以及物品的制造方法_佳能株式会社_202311346914.9

蓄电设备的检查方法及制造方法_丰田自动车株式会社_202010574534.0

冰箱及其控制方法_LG电子株式会社_202080061858.2

冰箱及其控制方法_重庆海尔制冷电器有限公司_202211295888.7

龙图腾网&IPTOP

【发明授权】一种端到端的说话人聚类方法及系统_四川长虹电器股份有限公司_201910575862.X

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务