买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于情绪识别的伪造音频检测方法_南京龙垣信息科技有限公司_202311324794.2 

申请/专利权人:南京龙垣信息科技有限公司

申请日:2023-10-13

公开(公告)日:2024-03-29

公开(公告)号:CN117059131B

主分类号:G10L25/51

分类号:G10L25/51;G10L25/63;G10L25/03;G10L25/27;G10L25/30

优先权:

专利状态码:有效-授权

法律状态:2024.03.29#授权;2024.02.23#著录事项变更;2023.12.01#实质审查的生效;2023.11.14#公开

摘要:本发明涉及音频分析技术领域,具体涉及一种基于情绪识别的伪造音频检测方法;建立语音情绪识别系统,建立合成语音检测系统,使用语音情绪识别系统和合成语音检测系统对伪造音频进行检测,在建立语音情绪识别系统的步骤中:选择情感语音语料库,进行语音输入的预处理和转换,从语音中提取情感特定特征,使用分类模型来识别情感,在建立合成语音检测系统的步骤中:合成语音检测系统由二值分类器组成,以特征向量Fx作为输入,估计输入信号所属的类别,使用标准的34层残差网络,使用多头注意力池来学习假音频和欺骗检测的判别嵌入,利用神经拼接来提高模型的泛化能力,通过上述方式,实现更加全面地检测伪造音频。

主权项:1.一种基于情绪识别的伪造音频检测方法,其特征在于,包括如下步骤:建立语音情绪识别系统的步骤中:选择情感语音语料库;进行语音输入的预处理和转换;从语音中提取情感特定特征;使用分类模型来识别情感;在进行语音输入的预处理和转换的步骤中:将所有轨道转换为单声道,并将采样至标准采样频率Fs=16kHz,使用阶数为6的带通数字滤波器滤波所有语音信号,使用无穷范数对每个音频进行归一化;在使用分类模型来识别情感的步骤中:给定语音x,网络的输出为Ex∈{e1,e2,…,eN},从语音信号中提取各种声学和韵律特征,并将提取的特征与类标签相关联,将带有情感类标签的数据分割成两部分,其中60%的数据用于训练,40%的数据用于测试;训练时使用IEMOCAP数据集,并考虑愤怒、快乐、悲伤和中性四种情绪类别,选择会话1到4用于培训,会话5用于开发和测试,使用学习率lr=10−5的Adam优化器,分类交叉熵作为损失函数;建立合成语音检测系统;使用语音情绪识别系统和合成语音检测系统对伪造音频进行检测;在建立合成语音检测系统的步骤中:对数据进行增强处理,对每个音频添加一个单一的干扰,对列车数据集应用两种不同类型的数据增强,混合数据来自开源数据集房间脉冲响应和MUSAN,其中包括噪声、音乐和口头语;噪声以随机的信噪比混合在0dB到20dB之间;模拟音频压缩效果,所有干净的音频样本都通过音频压缩算法来生成模拟,压缩算法包括MP3、OGG、AAC和OPUS;合成语音检测系统进行频率转换模拟电话传输损耗,音频样本先下采样到8kHz,然后上采样到16kHz。

全文数据:

权利要求:

百度查询: 南京龙垣信息科技有限公司 基于情绪识别的伪造音频检测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。