【发明授权】一种人声分离模型的训练以及人声分离方法和装置_上海依图网络科技有限公司_202011106262.8

申请/专利权人：上海依图网络科技有限公司

申请日：2020-10-15

公开（公告）日：2024-05-17

公开（公告）号：CN112242137B

主分类号：G10L15/04

分类号：G10L15/04;G10L15/06;G10L15/183;G10L15/26;G10L17/02;G10L17/04;G10L17/18

优先权：

专利状态码：有效-授权

法律状态：2024.05.17#授权;2021.02.05#实质审查的生效;2021.01.19#公开

摘要：本申请公开了一种人声分离模型的训练以及人声分离方法和装置，属于人工智能技术领域，该方法包括，获取各音频样本以及相应的人声分离标注信息，并将各音频样本输入至人声分离模型，获得相应的人声分离结果，以及根据各音频样本的人声分离结果和人声分离标注信息，对人声分离模型的参数进行调整，获得调整后的人声分离模型。以及采用粗分离模块确定待识别的目标音频对应的语音用户的用户标识信息，并分别将目标音频相应的每一用户标识信息以及目标音频，输入至人声分离模型，获得每一语音用户为目标音频中的每一目标音频片段对应的用户的概率，以及分别根据每一目标音频片段对应的各概率，确定相应的目标语音用户。这样，提高了人声分离的精确度。

主权项：1.一种人声分离模型的训练方法，其特征在于，包括：获取各音频样本以及相应的人声分离标注信息，所述人声分离标注信息表示音频中的各时刻对应的语音用户；基于卷积神经网络，分别提取每一音频样本中的各细分音频片段对应的第一声纹特征，所述细分音频片段是按照第一预设时长划分获得的；基于声纹提取模块，分别提取每一音频样本中的各粗分音频片段对应的第二声纹特征，所述粗分音频片段是按照第二预设时长划分获得的；基于粗分离模块，分别确定每一音频样本中识别出的语音用户对应的用户标识信息；采用卷积神经网络和循环神经网络，分别对每一音频样本对应的第一声纹特征、第二声纹特征以及用户标识信息进行处理，获得相应的人声分离结果；根据各音频样本的人声分离结果和人声分离标注信息，对人声分离模型的参数进行调整，获得调整后的人声分离模型，其中，所述人声分离模型是基于所述卷积神经网络、所述声纹提取模块、所述粗分离模块以及所述循环神经网络构建的；采用卷积神经网络和循环神经网络，分别对每一音频样本对应的第一声纹特征、第二声纹特征以及用户标识信息进行处理，获得相应的人声分离结果，包括：分别针对每一音频样本，执行以下步骤：根据音频样本中的各粗分音频片段对应的第二声纹特征和用户标识信息，分别确定每一用户标识信息对应的各第二声纹特征；分别根据每一用户标识信息对应的各第二声纹特征的平均值，获得相应的平均声纹特征；采用卷积神经网络和循环神经网络，对所述音频样本对应的各第一声纹特征、各第二声纹特征、各用户标识信息以及各用户标识信息对应的平均声纹特征进行上下文处理，获得上下文信息；根据所述上下文信息，分别确定每一语音用户为所述音频样本中的每一目标音频片段对应的用户的概率，所述目标音频片段是将所述音频样本按照第三预设时长划分后获得的；分别根据每一语音用户和每一目标音频片段对应的概率，获得相应的识别结果，所述识别结果表示所述语音用户是否为所述目标音频片段对应的用户。

全文数据：

权利要求：

百度查询：上海依图网络科技有限公司一种人声分离模型的训练以及人声分离方法和装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种基于多任务学习的CMIES日前调度方案智能生成方法_中国矿业大学_202410324192.5

下一篇：一种半球状钛合金工件内表面的激光加工方法及装置_华南理工大学_202410421480.2

相关技术

一种基于多任务学习的CMIES日前调度方案智能生成方法_中国矿业大学_202410324192.5

一种半球状钛合金工件内表面的激光加工方法及装置_华南理工大学_202410421480.2

一种智能仓储调度系统_周口师范学院_202410503666.2

信息处理方法、装置、电子设备和存储介质_中国建设银行股份有限公司_202410369562.7

卷绕式锂离子电池正极片回收处理装置_广东邦普循环科技有限公司_202480000128.X

用于处理头发的装置_欧莱雅_202280072308.X

一种基于三维数字岩心定量表征砂岩润湿性的方法_中国地质大学(北京)_202410584912.1

一种基于扩散模型的图像版权保护方法_哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)_202410287598.0

面向半导体分子束外延的一种图形化可控液滴外延方法_苏州大学_202410261029.9

一种适用于浆液输送的隔膜阀_蚌埠丹普新材料科技有限公司_202410440290.5

一种组合式骨折固定器械_苏鹏_202410429765.0

一种基于多传感器的韭菜智能分捆方法及系统_贵州大学_202410318336.6

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

【发明授权】一种人声分离模型的训练以及人声分离方法和装置_上海依图网络科技有限公司_202011106262.8

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务