买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】基于时序多尺度特征表示学习的伪造语音检测方法及系统_哈尔滨理工大学_202410024330.8 

申请/专利权人:哈尔滨理工大学

申请日:2024-01-08

公开(公告)日:2024-04-02

公开(公告)号:CN117809694A

主分类号:G10L25/51

分类号:G10L25/51;G10L25/30;G10L21/0208;G10L15/06

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.04.19#实质审查的生效;2024.04.02#公开

摘要:基于时序多尺度特征表示学习的伪造语音检测方法及系统,涉及一种伪造语音的检测方法及系统。为了解决没有充足利用语音各时序段特征信息的问题,以及现有的单一的深度神经网络进行伪造语音检测时存在的准确度较低的问题。本发明将预处理的语音信号输入wav2vec2.0提取初步特征,将初步特征矩阵输入基于多尺度时间序列的卷积网络提取特征矩阵,并将各组的输出进行拼接再通过一个最大池化层,然后将时序特征输入到SCG‑Res2Net50及分类器对语音进行打分,根据伪造语音的得分和真实语音得分进行真实语音与伪造语音的分类。

主权项:1.基于时序多尺度特征表示学习的伪造语音检测方法,其特征在于,包括以下步骤:首先将语音信号输入wav2vec2.0提取初步特征;然后将初步特征矩阵输入基于多尺度时间序列的卷积网络,提取特征矩阵;基于多尺度时间序列的卷积网络的处理过程包括以下步骤:将初步特征矩阵输入一个核大小为3的最大池化层进行处理得到N1帧的语音,对语音初步特征在帧级上做基于多尺度时间序列的处理,每一个尺度时间序列的处理时,将N1帧语音特征分为2n-1组,多余帧数丢弃,其中n为分组的次数;分别对每组语音特征做卷积操作,提取语音不同时段的特征;然后将不同时段的语音特征进行特征拼接,再送入一个最大池化层处理;再将最大池化层输出的特征送入SCG-Res2Net50处理;所述SCG-Res2Net50为在Res2Net块中对每个通道的空间位置进行动态的门控调节,即在特征图的每个通道上引入一个通道门控单元,用于自适应地调节通道的重要性;每个通道门控单元由一个sigmoid激活函数组成,其输入是对应通道的特征图;通过对激活函数输出进行元素乘法操作,对特征图进行通道级别的加权;最后将基于SCG-Res2Net50输出的特征送入分类器,分类器用于判断语音是真实语音还是伪造语音。

全文数据:

权利要求:

百度查询: 哈尔滨理工大学 基于时序多尺度特征表示学习的伪造语音检测方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。