申请/专利权人:浙江工业大学
申请日:2020-10-28
公开(公告)日:2021-02-09
公开(公告)号:CN112349281A
主分类号:G10L15/20(20060101)
分类号:G10L15/20(20060101);G10L15/16(20060101);G10L15/06(20130101);G06N3/04(20060101);G06N3/08(20060101)
优先权:
专利状态码:有效-授权
法律状态:2022.03.08#授权;2021.03.02#实质审查的生效;2021.02.09#公开
摘要:本发明公开了一种基于StarGAN的语音识别模型的防御方法,包括:构建包含生成器、判别器以及分类器的StarGAN模型;构建包括对抗损失函数、分类损失函数,循环一致损失函数的损失函数;以训损失函数最小为目标对StarGAN模型进行训练;语音识别过程中,利用训练好的分类器对原始音频进行分类,当分类结果为正常音频时,直接利用语音识别模型对原始音频进行语音识别,获得语音识别结果;当分类结果不为正常音频时,利用生成器对原始音频生成符合给定的正常音频属性的生成音频,再利用语音识别模型对生成音频进行语音识别,获得语音识别结果。以解决语音识别模型容易受到对抗攻击的问题,进而提高识别精度和鲁棒性。
主权项:1.一种基于StarGAN的语音识别模型的防御方法,其特征在于,包括以下步骤:构建StarGAN模型,所述StarGAN模型包括均由卷积神经网络构成的生成器、判别器以及分类器,所述生成器用于根据输入音频样本生成具有给定属性的生成音频,所述判别器用于判别输入音频在给定属性下的预测置信度,所述分类器用于分类输入音频的分类置信度;构建StarGAN模型的训练损失函数,损失函数包括对抗损失函数、分类损失函数,循环一致损失函数,其中,所述对抗损失函数用来提升生成器和判别器的性能,使生成音频仍符合给定属性下的音频数据分布,所述分类损失函数用于使生成器生成多类别的生成音频以及分类器分类性能的提升,所述循环一致性损失用于保留音频的语音信息以及生成器的多样性,即避免生成器将输入音频映射为对抗音频和正常音频中的某一个而失效;利用正常音频和对抗音频组成的训练样本集,以训损失函数最小为目标对StarGAN模型进行训练,训练结束后,提取训练好分类器和生成器用于语音识别;语音识别过程中,利用训练好的分类器对原始音频进行分类,当分类结果为正常音频时,直接利用语音识别模型对原始音频进行语音识别,获得语音识别结果;当分类结果不为正常音频时,利用生成器对原始音频生成符合给定的正常音频属性的生成音频,再利用语音识别模型对生成音频进行语音识别,获得语音识别结果。
全文数据:
权利要求:
百度查询: 浙江工业大学 基于StarGAN的语音识别模型的防御方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。