买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于CNN的语音深度哈希学习方法及系统_兰州理工大学_202010895014.X 

申请/专利权人:兰州理工大学

申请日:2020-08-31

公开(公告)日:2022-09-13

公开(公告)号:CN112035700B

主分类号:G06F16/683

分类号:G06F16/683;G06N3/04;G06N3/08

优先权:

专利状态码:有效-授权

法律状态:2022.09.13#授权;2020.12.22#实质审查的生效;2020.12.04#公开

摘要:本发明涉及一种基于CNN的语音深度哈希学习方法及系统。该方法包括:对原始语音文件进行预处理,得到预处理后的原始语音文件;提取所述预处理后的原始语音文件的语谱图特征;将所述语谱图特征输入至改进后的卷积神经网络模型进行训练和深度哈希特征学习,得到原始语音文件的深度语义特征;利用学习到的哈希函数对所述的深度语义特征进行深度哈希序列构造,得到代表所述原始语音文件的深度哈希二值码;根据所述深度哈希二值码进行语音检索。本发明能够解决现有基于内容的语音检索系统在特征提取过程中手工特征存在的局限性、特征表义性差等问题,可进一步提高检索精度和检索效率。

主权项:1.一种基于CNN的语音深度哈希学习方法,其特征在于,包括:对原始语音文件进行预处理,得到预处理后的原始语音文件;提取所述预处理后的原始语音文件的语谱图特征;将所述语谱图特征输入至改进后的卷积神经网络模型进行训练和深度哈希特征学习,得到原始语音文件的深度语义特征;所述改进后的卷积神经网络模型包括4个卷积层、4个池化层、2个批量归一化层和3个全连接层,第一卷积层包含32个卷积滤波器,核大小为3×3,数据输入为3通道的224×224大小的语谱图;所述第一卷积层后设置第一个池化层,第一池化层滤波器大小为2×2,采用默认步长1;所述第一池化层后设置第二卷积层,所述第二卷积层包含64个卷积滤波器,核大小为3×3;所述第二卷积层后设置第二池化层,第二池化层滤波器大小为2×2;所述第二池化层后加入第一批量归一化层;所述第一批量归一化层后设置第三卷积层,所述第三卷积层包含128个卷积滤波器,核大小为3×3,所述第三卷积层后面设置第三池化层,所述第三池化层与所述第二池化层相同;所述第三池化层后设置第四卷积层,所述第四卷积层后设置第四池化层,所述第四卷积层与所述第三卷积层相同,所述第四池化层和所述第三池化层相同,所述第四个池化层后加入第二批量归一化层;所述第二批量归一化层后连接一个FC全连接层,所述FC全连接层用于将提取的特征扁平;所述FC层之后连接哈希层,所述哈希层的节点数为目标哈希码的长度,所述哈希层用于得到语音数据的深度哈希二值码;在所述哈希层之后,设置一个节点数为语音样本类别数的输出层;利用学习到的哈希函数对所述的深度语义特征进行深度哈希序列构造,得到代表所述原始语音文件的深度哈希二值码;根据所述深度哈希二值码进行语音检索。

全文数据:

权利要求:

百度查询: 兰州理工大学 一种基于CNN的语音深度哈希学习方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。