买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】基于深度神经网络的哼唱检索法_天津大学青岛海洋技术研究院_201811588112.8 

申请/专利权人:天津大学青岛海洋技术研究院

申请日:2018-12-25

公开(公告)日:2020-07-03

公开(公告)号:CN111368129A

主分类号:G06F16/632(20190101)

分类号:G06F16/632(20190101);G06N3/04(20060101)

优先权:

专利状态码:在审-实质审查的生效

法律状态:2020.07.28#实质审查的生效;2020.07.03#公开

摘要:基于深度神经网络的哼唱检索法,使用深度神经网络‑动态时间规整方法,很好地解决诸如语言建模这样的问题,卷积神经网络应用于声学建模的自动语音识别,在辨识准确率和速度上有一定的提升;动态时间规整方法上介绍基于GPU的动态时间规划算法的提速以及在提速的条件下针对音高不同问题的解决方案。

主权项:1.基于深度神经网络的哼唱检索法,其特征在于:具体内容如下:1MIDI资料库音频资料解析资料库是由MIDI格式的音乐组成的,其经过解析后所得到的信息是[音符1的音高,音符1的音长,音符2的音高,音符2的音长,……,音符N的音高,音符N的音长],可以表示为[𝑛1,𝑑1,𝑛2,𝑑2,…,𝑛𝑁,𝑑𝑁,];如果两个相邻音符音高相同仍会视为两个独立的音符;将音高音长的序列展开,再依据它们各自的音长加以展开,将音长数作为展开音高个数,采用将MIDI资料完全展开的方式处理,以便于后期动态时间规整算法的比较辨别;2从用户哼唱歌曲中追踪高音并对深度神经网络进行训练用户哼唱后所录制的wav档案,必须经由音高追踪系统计算出声音信号的音高,运用半音差(semitone)概念,半音差是音乐中音符表示的一种标准,其与频率有一定的转换关系,如公式(1-1)所示 半音差是为了后期的辨识系统进行比对所采用的统一标准,如60就是钢琴键当中的中央Do,也就是C4;在钢琴键上,包含黑键,每一个相邻的键就是相差一个半音,其音高差距称为半音差;举例来说,若是[60,64,67]就是[Do,Mi,So],经由半音的组合,加上每个音符的音长不同,在两者之中加以变化,就可以组成各式各样的美妙的旋律;用户的哼唱音频文件都是时长8秒的单声道音频,在放入深度神经网络中进行处理之前,需要做以下预处理:首先,对音频数据进行以0.032秒为单位的无重叠的应用汉明窗hanning的加窗分帧,这样8秒的哼唱音频即会得到250个采样窗数据;其次,把得到的每一帧数据分别进行快速傅里叶变换(FastFouriTransform,FFT),这样就得到了这一帧频谱(Spectrum),进而做对数运算以得到其对数谱(LogarithmicSpectrum),因为以0.032秒为窗长,故而此处得到的数据是在0到2000赫兹范围内以31.25赫兹为单位进行步进的65个采样数据;再次,对得到的每帧的对数谱的65个数据进行归一化,将其归一到[-1,1]区间内以便于后期作为深度神经网络的输入数据;最后,在按照以上方法操作后得到250组数据,为了降低每一组采样的不确定性带来的错误,将每相邻的5组数据进行整合,设五组数据分别为[𝑎1,…,𝑎65],[𝑏1,…,𝑏65],[𝑐1,…,𝑐65],[𝑑1,…,𝑑65],[𝑒1,…,𝑒65],则按照对应位置穿插的方式进行整合后的数据为[𝑎1,𝑏1,𝑐1,𝑑1,𝑒1…,𝑎65,𝑏65,𝑐65,𝑑65,𝑒65],这样就获得了246组325维的数据;针对每一帧的数据,获了通过人工的方式进行标注的音高,音高的分布范围为[35,85],即51个音高,再加上代表空拍的0,可以获得52个音高类别,对应每一组数据,都以[𝑐1,…,𝑐65]组代表的音高作为目标音高,这样每一首8秒的哼唱歌曲就具有了246个目标音高;将获得的每组325维的哼唱数据作为深度神经网络的输入,在深度神经网络进行训练时,用对应的音高作为深度神经网络的目标输出;成功训练后使用时仅需将通过以上过程获取的哼唱数据输入深度神经网络中即可获得这段数据所代表的音高序列;对于采用深度神经网络计算出的音高序列,为了得到更加合理地结果,需要对数据进行平滑处理来去掉奇异点和突变点,具体做法是将空拍紧邻的非空拍的音的改为另一侧的音,若一个非空拍的音的两侧都是空拍则将该音也改为空拍;该处理的理论依据是当人发音和发音结束时都会存在一些唇的摩擦或其他动作发出声音影响音高的判断,这样按照上面的方法可以去除掉这些错误判断的音;之后再考察是否存在突然变高或变低的音,将其改为两侧音高的均值;该处理的理论依据是由于处理每个点都是0.032秒的,不可能在哼唱时出现突变,所以出现突变只能是追踪错误造成的,故而将其改为两侧的均值更合理;3对音频信号的休止符处理将休止符延长为前一个音的音高,这么做不仅可以更明显的看出音高的走势之外,还可以将该音符的长度呈现的更为完整;对于得到的最终的哼唱音高序列,从第一个非0值为起始,取前200个音高值作为序列,这样做的原因是:考虑人的反应时间,故而将前面的第一个非空拍作为整段音高序列的开始;取前200个音高是为了将所有哼唱序列都变为同一长度,便于后面辨识系统的识别匹配;对于不足200个音高的序列,将最后的一个音高值复制补充至达到200个为止;对于未能识别到音高的序列,则将其改为由200个0值组成的音高序列;4音频信号导入辨识系统进行检索检索过程中采用基于GPU加速的动态时间规整算法,检索完毕之后系统将会回传前十名可能的歌曲,也就是动态时间规整方法计算的最小欧几里得距离差的前十个最小的歌曲匹配结果;基于GPU加速的动态时间规整算法,是将获得的音高资料库的数据存入到全局存储器之中,之后将要比较的一个歌曲音高资料和一条哼唱资料存储到同一个区块内,且每个区块含有多个线程;考虑到动态时间规整算法的特性,匹配可以从歌曲资料的任意位置开始或结束,且对哼唱资料进行完整匹配,故采用一个区块匹配比较一个歌曲音高资料和一条哼唱资料,之后的动态时间规整列表由于其动态性和状态转移方程的特点,可以并行的由不同的线程工作完成,即同一行的数据可以同时地进行计算和填充;在计算的过程中使用共享存储器作为同一区块内的不同线程间通讯的途径;在GPU运算的同时,使用CPU来对不同的哼唱资料进行任务分配和调度;在每个哼唱资料计算完动态时间规整距离之后,亦采用CPU对得到的同一哼唱资料对不同歌曲音高资料的距离进行排序并获得前几个匹配歌曲列表。

全文数据:

权利要求:

百度查询: 天津大学青岛海洋技术研究院 基于深度神经网络的哼唱检索法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。