【发明授权】基于多尺度特征聚集的说话人认证方法及系统_华南理工大学_202110449128.6

导航：龙图腾网> 最新专利技术> 基于多尺度特征聚集的说话人认证方法及系统_华南理工大学_202110449128.6

申请/专利权人：华南理工大学

申请日：2021-04-25

公开（公告）日：2024-03-19

公开（公告）号：CN113221673B

主分类号：G10L17/02

分类号：G10L17/02;G10L17/04;G10L17/18

优先权：

专利状态码：有效-授权

法律状态：2024.03.19#授权;2021.08.24#实质审查的生效;2021.08.06#公开

摘要：本发明提供的基于多尺度特征聚集的说话人认证方法，包括：提取Fbank特征；建立声纹特征向量提取模型以提取声纹特征向量；构建损失函数来训练声纹特征向量提取模型；确定认证阈值；提取用户注册语音样本的Fbank特征；将用户注册样本的Fbank特征输入声纹特征向量提取模型，获得注册样本的声纹特征向量；将用户认证样本的Fbank特征输入声纹特征向量提取模型，获得认证样本的声纹特征向量；将用户认证样本的声纹特征向量逐个与注册库中每个用户的声纹特征向量计算余弦相似度，根据余弦相似度确定是否认证通过。还提供了相应的认证系统。通过采用多尺度特征聚合器，使得能够在噪声语音或短时长语音中充分提取说话人的信息。

主权项：1.基于多尺度特征聚集的说话人认证方法，其特征在于，包括以下步骤：采集用户语音信号，提取Fbank特征；建立声纹特征向量提取模型，用于从Fbank中提取具有用户区分性的声纹特征向量，其中，所述声纹特征向量提取模型包括帧级特征提取器和多尺度特征聚集器，帧级特征提取器用于对Fbank特征处理后输出多个不同尺度的帧级特征，多尺度特征聚集器用于根据多个不同尺度的帧级特征得到声纹特征向量；确定用于区分用户身份的认证阈值；提取用户注册语音样本的Fbank特征；将用户注册样本的Fbank特征输入声纹特征向量提取模型，获得注册样本的声纹特征向量，并将注册样本的声纹特征向量加入注册库；提取用户认证语音样本的Fbank特征；将用户认证样本的Fbank特征输入声纹特征向量提取模型，获得认证样本的声纹特征向量；将用户认证样本的声纹特征向量逐个与注册库中每个用户的声纹特征向量计算余弦相似度，若相似度大于认证阈值，则认证通过，若相似度小于等于认证阈值，则认证失败；其中，所述帧级特征提取器采用装配有SE模块的ResNet模型，ResNet模型包括多个残差模块，多个残差模块用于输出尺度不同的多个帧级特征；所述多尺度特征聚集器包括平均池化层、G-VLAD池化层和用于降维的降维层，平均池化层用于将帧级特征提取器输出的帧级特征转化为二维帧级特征，G-VLAD池化层的数量与帧级特征提取器中的残差模块的数量相等，G-VLAD池化层与残差模块一一相应设置，每个G-VLAD池化层用于将相应残差模块输出的帧级特征拆分并聚集得到固定长度的一维特征向量，每个一维特征向量串联得到一维多尺度特征向量，降维层用于根据所述一维多尺度特征向量得到声纹特征向量；其中，在建立声纹特征向量提取模型后，还包括以下步骤：构建损失函数，用来训练声纹特征向量提取模型，所述损失函数包括基于余弦相似度的prototypical损失函数LP和有附加间隔的Softmax损失函数LLMS，即损失函数L的表达式如下：L＝LP+LLMS#5其中，式中，Sp,p表示同类样本之间的相似度，Sp,v表示异类样本之间的相似度，N表示训练集中类别总数，s表示附加间隔Softmax函数中的缩放因子，决定了附加间隔Softmax函数的类型，θ表示特征向量与分类层中对应权值向量之间的角度，yi表示分类正确的样本的标签，u表示分类错误的样本的标签的索引号，C表示训练集中类别总数，P表示从训练集中挑选的P个类别，p表示挑选出来的第p类。

全文数据：

权利要求：

百度查询：华南理工大学基于多尺度特征聚集的说话人认证方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：再生废液处理系统_山东荣信集团有限公司_202322260404.1

下一篇：配备可拆固定式导纸嘴的打印装置_长城信息股份有限公司_202322616485.4

相关技术

再生废液处理系统_山东荣信集团有限公司_202322260404.1

配备可拆固定式导纸嘴的打印装置_长城信息股份有限公司_202322616485.4

一种纸箱生产用贴标机_浙江华信科技发展有限公司_202322178698.3

一种可调节车挡_自贡市城市规划设计研究院有限责任公司_202322421392.6

一种LED灯珠生产用烘箱_深圳市立彩光电科技有限公司_202322576244.1

一种弹力按摩鞋_温岭市成奇鞋业有限公司_202322137663.5

一种新型带束层鼓防错灯标装置_赛轮(沈阳)轮胎有限公司_202322401683.9

一种不锈钢带输送机构_佛山市南海区东励森金属制品有限公司_202322463638.6

一种打孔装置_广州市骏褀无纺布实业有限公司_202321762517.5

一种新型箱式变电站户外壳体_武汉市合力电器有限公司_202322574997.9

一种精密小磨床用物料固定装置_昆山法尔霆机电科技有限公司_202322612017.X

磨豆压力咖啡机自动压粉机构_浙江比依电器股份有限公司_202322521989.8

说话相关技术

一种视频中说话人定位的方法、装置及计算机存储介质_清华珠三角研究院_202011373972.7

一种基于声学后验概率的任意说话人语音转换系统及方法_江苏清微智能科技有限公司_202011057900.1

一种说话人识别方法、装置、存储介质及设备_科大讯飞股份有限公司_202110807643.7

一种基于视线追踪技术的目标说话人语音提取方法及系统_本相空间(珠海)科技有限公司_202311729285.8

一种基于双层知识蒸馏说话人模型压缩系统和方法_江苏清微智能科技有限公司_202011079752.3

基于唇部时序关键点的人说话检测方法、计算机设备及存储介质_黑芝麻智能科技有限公司_202410083258.6

一种基于自适应类边界间隔的说话人识别方法、系统及存储介质_东北林业大学_202311867976.4

一种耳语说话人识别模型训练方法和装置_北京建筑大学_202410250740.4

一种针对说话人识别系统对抗样本的防御方法_贵州师范大学_202310918349.2

用于语音转换的可控说话者音频表示的方法及装置_清华大学_202410063968.2

认证相关技术

金融场景下的身份认证方法、装置和系统_北京金山云网络技术有限公司_202110027863.8

一种身份认证方法、装置及设备_中国工商银行股份有限公司_202110352597.6

利用音频信号认证用户的电子装置及其方法_三星电子株式会社_201980006134.5

基于时间的一次性密码算法的身份认证方法和装置_支付宝(杭州)信息技术有限公司_202210150943.7

基于区块链的边缘计算身份认证方法及系统_中国科学院信息工程研究所_202210320479.1

身份认证方法、客户端、服务器及存储介质_深圳融安网络科技有限公司_202110114754.X

指纹认证装置_丰田自动车株式会社_201910901751.3

身份认证方法及装置_中国银行股份有限公司_202210782792.7

安全认证方法和设备_清华大学深圳国际研究生院_202410144361.7

用于安全执行离线认证的技术_维萨国际服务协会_201980083805.8

聚集相关技术

一种针对城市聚集事件的应急疏散方法与系统_中国科学院深圳先进技术研究院_201911289214.4

一种散粮聚集出料斗_重庆市兵杰仓储设备有限公司_202322410307.6

防止杂质聚集的水流传感器_佛山市顺德区恩旺电器有限公司_202322738793.4

一种集合聚集k-means法的数据库实现方法_电信科学技术第十研究所有限公司_202410119600.3

一种强化注水加速废弃层剩余油聚集后再动用的方法_中国石油化工股份有限公司_202010793223.3

一种稀土超分子荧光聚集体及其制备方法和应用_山西农业大学_202410088335.7

用于光学地测量颗粒的稳定性和聚集的系统和方法_微量热技术有限公司_201680057297.2

基于菲涅尔结构的聚集超声换能器及其应用_温州大学_202410152472.2

基于聚集诱导发光材料的微胶囊及其制备方法和应用_香港科技大学深圳研究院_202311795067.4

抑制气相聚集的气液混输泵叶片设计方法_西安理工大学_202410164880.X

龙图腾网&IPTOP

【发明授权】基于多尺度特征聚集的说话人认证方法及系统_华南理工大学_202110449128.6

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务