【发明公布】一种针对歌唱人声旋律转录的方法及装置_成都开心音符科技有限公司_202311223443.2

导航：龙图腾网> 最新专利技术> 一种针对歌唱人声旋律转录的方法及装置_成都开心音符科技有限公司_202311223443.2

申请/专利权人：成都开心音符科技有限公司

申请日：2023-09-21

公开（公告）日：2023-12-08

公开（公告）号：CN117198250A

主分类号：G10H1/00

分类号：G10H1/00;G10H1/40;G10L19/08;G10L19/16;G10L25/03;G06N3/048;G06N3/08;G06F18/25

优先权：

专利状态码：在审-实质审查的生效

法律状态：2023.12.26#实质审查的生效;2023.12.08#公开

摘要：本发明公开了一种针对歌唱人声旋律转录的方法及装置，涉及人声旋律转录技术领域，所述音频预处理是从本地文件或者超文本传输协议请求中读取音频数据，并使用公开工具转码为单通道音频数据，然后分离人声和伴奏，最后对人声音频分段；通过前置分离人声音轨，提取突出基频的语音信号特征，输入神经网络模型，对模型的输出结果进行简单的后处理步骤，得到初步的音符预测结果，经过音符节奏量化操作，得到一个完整的乐谱信息；采用新颖的频谱处理方法来表征输入特征，使用自注意力机制来学习上下文信息，利用每段乐谱排列信息校正输出结果，同时采用了简单有效的后处理逻辑，大幅提升人声音乐转录的准确性。

主权项：1.一种针对歌唱人声旋律转录的方法及装置，包括处理流程，其特征在于：所述音频预处理是从本地文件或者超文本传输协议请求中读取音频数据，并使用公开工具转码为单通道音频数据，然后分离人声和伴奏，最后对人声音频分段；音频特征处理将分段后的人声音频片段数据切分为多个帧，然后使用相应工具将分离的人声和伴奏分别提取360维的CFP特征；输入提取好的音频特征数据到训练好的神经网络模型；确定音符边界位置，通过计算验证数据中的阈值范围内的F1指标来计算边界和音符边界输出的最佳阈值；确定音符高音量，可在每个音符段中计算所有音高值的平均标签概率值，选择平均标签概率值最大的音高值作为该音符的最终音高值。

全文数据：

权利要求：

百度查询：成都开心音符科技有限公司一种针对歌唱人声旋律转录的方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：混合动力自动手动变速器_伊顿康明斯自动传输技术有限责任公司_202280063792.X

下一篇：一种社团机器人竞赛用综合管理系统_昆山峻优科技培训有限公司_202311812065.1

相关技术

混合动力自动手动变速器_伊顿康明斯自动传输技术有限责任公司_202280063792.X

一种社团机器人竞赛用综合管理系统_昆山峻优科技培训有限公司_202311812065.1

一种新型射灯天线_摩比天线技术(深圳)有限公司_202410125372.0

一种茭白废弃叶多糖组分及其制备方法和用途_常熟理工学院_202410158334.5

一种基于视觉和图像处理的叉车AGV控制系统_中建材智能自动化研究院有限公司_202410146298.0

一种化合物及其制备方法和在卷烟中的应用_湖北中烟工业有限责任公司_202410162764.4

一种异性粘结磁粉制备用原料筛选设备_天长市中德电子有限公司_202410411084.1

一种海底设施多关节柔性智能体的控制方法及系统_同济大学_202410164319.1

一种热升华水性油墨及其制备方法_广东睿智环保科技股份有限公司_202410410854.0

一种基于多智能体交互的自然语言智能查询方法和装置_浙江大学_202311766938.X

电池模组和电池包_浙江晶科储能有限公司_202410338036.4

一种燃气管道修复装置及方法_广州燃气集团有限公司_202410161508.3

龙图腾网&IPTOP

【发明公布】一种针对歌唱人声旋律转录的方法及装置_成都开心音符科技有限公司_202311223443.2

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务