申请/专利权人:镁佳(北京)科技有限公司
申请日:2022-11-23
公开(公告)日:2024-03-19
公开(公告)号:CN115881103B
主分类号:G10L15/06
分类号:G10L15/06;G10L25/63
优先权:
专利状态码:有效-授权
法律状态:2024.03.19#授权;2023.04.18#实质审查的生效;2023.03.31#公开
摘要:本发明提供语音情绪识别模型训练方法、语音情绪识别方法及装置,该方法包括:获取无标注语音数据集及有标注语音数据集;基于无标注语音数据集进行自监督训练,得到预训练模型;基于有标注语音数据集对预训练模型进行训练,得到初始语音情绪识别模型;基于初始语音情绪识别模型,对无标注语音数据集进行筛选,得到无标注训练数据集;基于无标注训练数据集和有标注语音数据集对预训练模型进行半监督训练,得到目标语音情绪识别模型。通过本发明,能够利用很少的标注语音数据,通过自监督学习及半监督学习,训练得到语音情绪识别模型,大幅度降低了对有标注语音的依赖性,训练得到的语音情绪识别模型具备鲁棒性高、泛化能力强、可跨领域使用的特点。
主权项:1.一种语音情绪识别模型训练方法,其特征在于,所述方法包括:获取无标注语音数据集及有标注语音数据集,所述有标注语音数据集中的标注为语音对应的情绪;基于所述无标注语音数据集进行自监督训练,得到预训练模型;基于所述有标注语音数据集对所述预训练模型进行训练,得到初始语音情绪识别模型;基于所述初始语音情绪识别模型,对所述无标注语音数据集进行筛选,得到无标注训练数据集;所述基于所述初始语音情绪识别模型,对所述无标注语音数据集进行筛选,得到无标注训练数据集,包括:基于所述初始语音情绪识别模型,对所述无标注语音数据集的情绪进行分类,得到包含不同情绪的所述无标注语音数据,以相同的比例选取包含不同情绪种类的无标注语音数据,得到所述无标注训练数据集;对所述无标注训练数据集进行数据增强,得到增强数据集;将所述有标注语音数据集、无标注训练数据集及增强数据集输入所述预训练模型,计算得到所述有标注语音数据集输出概率、无标注训练数据集输出概率及增强数据集输出概率;基于所述有标注语音数据集输出概率及所述有标注语音数据集对应的标注类别,计算得到所述有标注语音数据集的交叉熵损失作为所述有标注语音数据集损失;设定阈值,在所述无标注训练数据集输出概率大于所述阈值时,基于所述无标注训练数据集输出概率,计算得到所述无标注训练数据集的伪标签;基于所述无标注训练数据集的伪标签和增强数据集输出概率,计算得到所述增强数据集的交叉熵损失;基于所述无标注训练数据集输出概率及增强数据集输出概率,计算得到所述无标注训练数据集与增强数据集的KL散度损失;基于所述增强数据集的交叉熵损失及所述无标注训练数据集与增强数据集的KL散度损失,得到所述无标注训练数据集损失;基于所述有标注语音数据集损失及无标注训练数据集损失,对所述预训练模型进行训练,得到目标语音情绪识别模型。
全文数据:
权利要求:
百度查询: 镁佳(北京)科技有限公司 语音情绪识别模型训练方法、语音情绪识别方法及装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。