【发明公布】基于深度神经网络的哼唱检索法_天津大学青岛海洋技术研究院_201811588112.8

导航：龙图腾网> 最新专利技术> 基于深度神经网络的哼唱检索法_天津大学青岛海洋技术研究院_201811588112.8

申请/专利权人：天津大学青岛海洋技术研究院

申请日：2018-12-25

公开（公告）日：2020-07-03

公开（公告）号：CN111368129A

主分类号：G06F16/632(20190101)

分类号：G06F16/632(20190101);G06N3/04(20060101)

优先权：

专利状态码：在审-实质审查的生效

法律状态：2020.07.28#实质审查的生效;2020.07.03#公开

摘要：基于深度神经网络的哼唱检索法，使用深度神经网络‑动态时间规整方法，很好地解决诸如语言建模这样的问题，卷积神经网络应用于声学建模的自动语音识别，在辨识准确率和速度上有一定的提升；动态时间规整方法上介绍基于GPU的动态时间规划算法的提速以及在提速的条件下针对音高不同问题的解决方案。

主权项：1.基于深度神经网络的哼唱检索法，其特征在于：具体内容如下：1MIDI资料库音频资料解析资料库是由MIDI格式的音乐组成的，其经过解析后所得到的信息是[音符1的音高，音符1的音长，音符2的音高，音符2的音长，……，音符N的音高，音符N的音长]，可以表示为[𝑛1,𝑑1,𝑛2,𝑑2,…,𝑛𝑁,𝑑𝑁,]；如果两个相邻音符音高相同仍会视为两个独立的音符；将音高音长的序列展开，再依据它们各自的音长加以展开,将音长数作为展开音高个数，采用将MIDI资料完全展开的方式处理，以便于后期动态时间规整算法的比较辨别；2从用户哼唱歌曲中追踪高音并对深度神经网络进行训练用户哼唱后所录制的wav档案，必须经由音高追踪系统计算出声音信号的音高，运用半音差（semitone）概念，半音差是音乐中音符表示的一种标准，其与频率有一定的转换关系，如公式（1-1）所示半音差是为了后期的辨识系统进行比对所采用的统一标准，如60就是钢琴键当中的中央Do，也就是C4；在钢琴键上，包含黑键，每一个相邻的键就是相差一个半音，其音高差距称为半音差；举例来说，若是[60，64，67]就是[Do，Mi，So]，经由半音的组合，加上每个音符的音长不同，在两者之中加以变化，就可以组成各式各样的美妙的旋律；用户的哼唱音频文件都是时长8秒的单声道音频，在放入深度神经网络中进行处理之前，需要做以下预处理：首先，对音频数据进行以0.032秒为单位的无重叠的应用汉明窗hanning的加窗分帧，这样8秒的哼唱音频即会得到250个采样窗数据；其次，把得到的每一帧数据分别进行快速傅里叶变换（FastFouriTransform，FFT），这样就得到了这一帧频谱（Spectrum），进而做对数运算以得到其对数谱（LogarithmicSpectrum），因为以0.032秒为窗长，故而此处得到的数据是在0到2000赫兹范围内以31.25赫兹为单位进行步进的65个采样数据；再次，对得到的每帧的对数谱的65个数据进行归一化，将其归一到[-1,1]区间内以便于后期作为深度神经网络的输入数据；最后，在按照以上方法操作后得到250组数据，为了降低每一组采样的不确定性带来的错误，将每相邻的5组数据进行整合，设五组数据分别为[𝑎1,…,𝑎65]，[𝑏1,…,𝑏65]，[𝑐1,…,𝑐65]，[𝑑1,…,𝑑65]，[𝑒1,…,𝑒65]，则按照对应位置穿插的方式进行整合后的数据为[𝑎1,𝑏1,𝑐1,𝑑1,𝑒1…,𝑎65,𝑏65,𝑐65,𝑑65,𝑒65]，这样就获得了246组325维的数据；针对每一帧的数据，获了通过人工的方式进行标注的音高，音高的分布范围为[35,85]，即51个音高，再加上代表空拍的0，可以获得52个音高类别，对应每一组数据，都以[𝑐1,…,𝑐65]组代表的音高作为目标音高，这样每一首8秒的哼唱歌曲就具有了246个目标音高；将获得的每组325维的哼唱数据作为深度神经网络的输入，在深度神经网络进行训练时，用对应的音高作为深度神经网络的目标输出；成功训练后使用时仅需将通过以上过程获取的哼唱数据输入深度神经网络中即可获得这段数据所代表的音高序列；对于采用深度神经网络计算出的音高序列，为了得到更加合理地结果，需要对数据进行平滑处理来去掉奇异点和突变点，具体做法是将空拍紧邻的非空拍的音的改为另一侧的音，若一个非空拍的音的两侧都是空拍则将该音也改为空拍；该处理的理论依据是当人发音和发音结束时都会存在一些唇的摩擦或其他动作发出声音影响音高的判断，这样按照上面的方法可以去除掉这些错误判断的音；之后再考察是否存在突然变高或变低的音，将其改为两侧音高的均值；该处理的理论依据是由于处理每个点都是0.032秒的，不可能在哼唱时出现突变，所以出现突变只能是追踪错误造成的，故而将其改为两侧的均值更合理；3对音频信号的休止符处理将休止符延长为前一个音的音高，这么做不仅可以更明显的看出音高的走势之外，还可以将该音符的长度呈现的更为完整；对于得到的最终的哼唱音高序列，从第一个非0值为起始，取前200个音高值作为序列，这样做的原因是：考虑人的反应时间，故而将前面的第一个非空拍作为整段音高序列的开始；取前200个音高是为了将所有哼唱序列都变为同一长度，便于后面辨识系统的识别匹配；对于不足200个音高的序列，将最后的一个音高值复制补充至达到200个为止；对于未能识别到音高的序列，则将其改为由200个0值组成的音高序列；4音频信号导入辨识系统进行检索检索过程中采用基于GPU加速的动态时间规整算法，检索完毕之后系统将会回传前十名可能的歌曲，也就是动态时间规整方法计算的最小欧几里得距离差的前十个最小的歌曲匹配结果；基于GPU加速的动态时间规整算法，是将获得的音高资料库的数据存入到全局存储器之中，之后将要比较的一个歌曲音高资料和一条哼唱资料存储到同一个区块内，且每个区块含有多个线程；考虑到动态时间规整算法的特性，匹配可以从歌曲资料的任意位置开始或结束，且对哼唱资料进行完整匹配，故采用一个区块匹配比较一个歌曲音高资料和一条哼唱资料，之后的动态时间规整列表由于其动态性和状态转移方程的特点，可以并行的由不同的线程工作完成，即同一行的数据可以同时地进行计算和填充；在计算的过程中使用共享存储器作为同一区块内的不同线程间通讯的途径；在GPU运算的同时，使用CPU来对不同的哼唱资料进行任务分配和调度；在每个哼唱资料计算完动态时间规整距离之后，亦采用CPU对得到的同一哼唱资料对不同歌曲音高资料的距离进行排序并获得前几个匹配歌曲列表。

全文数据：

权利要求：

百度查询：天津大学青岛海洋技术研究院基于深度神经网络的哼唱检索法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种打孔装置_广州市骏褀无纺布实业有限公司_202321762517.5

下一篇：管带纠偏装置_武汉巨沣工程技术有限公司_202322765867.3

相关技术

一种打孔装置_广州市骏褀无纺布实业有限公司_202321762517.5

管带纠偏装置_武汉巨沣工程技术有限公司_202322765867.3

用于电厂冷却塔内壁及淋水构架的修复涂层结构及冷却塔_北京易晟元环保工程有限公司_202321781851.5

一种滑套式HDMI数据线_深圳市海鑫达连接线有限公司_202322633970.2

一种防卡管测斜仪探头_中国建筑西南勘察设计研究院有限公司_202420526288.5

电子设备_深圳市嘉晋实业有限公司_202322601396.2

一种吸音降噪窗帘面料_江苏洲际家居科技有限公司_202322672664.X

一种能自动清洗的鸡养殖笼_海南省农业科学院三亚研究院(海南省实验动物研究中心)_202420555494.9

一种网格化终端旋转装置_北京国旺盛源智能终端科技有限公司_202322619930.2

一种园林绿化便携铲_马丽丽_202322375183.2

电机转子定位工装_洛阳航特机电技术有限公司_202322258362.8

一种方便拆装的瓦楞机用瓦楞辊_浙江永暉瓦楞辊有限公司_202322675014.0

网络相关技术

用于标识通信网络中的网络节点的方法和通信网络_罗伯特·博世有限公司_201910574227.X

网络设备的升级_瑞典爱立信有限公司_201780096272.8

在区块链网络中验证交易的方法以及构成该网络的节点_比特飞翔区块链株式会社_201980026000.X

一种移动通信网络辅助广播网络的收发方法及其装置_上海交通大学_202210665237.6

基于多通道图卷积网络的社交网络节点分类方法与系统_扬州大学_202210353954.5

网络恢复方法、装置、设备及存储介质_北京华耀科技有限公司_202210476307.3

管理IOT网络中的数据和数据使用_勤达睿公司_202080032483.7

一种能带隙网络滤波器_南京志杰通信技术有限公司_202322522246.2

一种网络数据存储服务器_南昌交通学院_202322497073.3

抵抗5G网络切片的侧信道攻击_微软技术许可有限责任公司_202280059705.3

哼唱相关技术

一种哼唱识别方法、设备及介质_腾讯音乐娱乐科技(深圳)有限公司_202310249583.0

一种基于动态时间规整的哼唱音准评价方法_厦门大学_202210332565.4

一种哼唱识别方法、设备及介质_腾讯音乐娱乐科技(深圳)有限公司_202210583214.0

一种基于动态时间规整的哼唱音准评价方法_厦门大学_202210332565.4

一种针对海量音乐数据的哼唱检索系统_华南理工大学_202010370933.5

一种基于旋律特征聚类与优化的哼唱检索方法_哈尔滨理工大学_202110773772.9

在线哼唱检索方法及系统_科大讯飞股份有限公司_201410735790.8

一种哼唱识别方法及相关设备_华为技术有限公司_201910472410.9

一种针对海量音乐数据的哼唱检索系统_华南理工大学_202010370933.5

基于深度神经网络的哼唱检索法_天津大学青岛海洋技术研究院_201811588112.8

神经相关技术

一种基于神经网络的数据处理方法及设备_华为技术有限公司_202211277119.4

一种基于模糊神经网络的自动射孔系统_电子科技大学_202310120220.7

去模糊卷积神经网络训练方法、装置、设备及存储介质_清华大学_202111342163.4

一种多神经网络任务处理方法及装置_清华大学_202210741395.5

基于多策略原型生成的低资源神经机器翻译方法_昆明理工大学_202210293213.2

一种基于知识增强神经网络模型的讽刺检测方法及系统_广东外语外贸大学_202311374400.4

基于图神经网络的汉越跨语言观点对象识别分析方法_昆明理工大学_202210532418.1

一种基于正念冥想的神经反馈干预系统及方法_兰州大学_202111187018.3

基于多尺度卷积神经网络的恶意软件检测方法_玉溪师范学院_202010231067.1

基于TS模糊神经网络的MSWI炉膛温度预测方法_北京工业大学_201911252439.2

龙图腾网&IPTOP

【发明公布】基于深度神经网络的哼唱检索法_天津大学青岛海洋技术研究院_201811588112.8

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务