当前位置 : 首页 > 专利喜报 > 浙江大学黄家伟获国家专利权

浙江大学黄家伟获国家专利权

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

龙图腾网获悉浙江大学申请的专利一种基于分段整流的快速文本引导音效生成方法和系统获国家发明授权专利权，本发明授权专利权由国家知识产权局授予，授权公告号为：CN119811365B 。

龙图腾网通过国家知识产权局官网在2025-06-17发布的发明授权授权公告中获悉：该发明授权的专利申请号/专利号为：202510260365.6，技术领域涉及：G10L13/08；该发明授权一种基于分段整流的快速文本引导音效生成方法和系统是由黄家伟;赵洲设计研发完成，并于2025-03-06向国家知识产权局提交的专利申请。

本一种基于分段整流的快速文本引导音效生成方法和系统在说明书摘要公布了：本发明公开了一种基于分段整流的快速文本引导音效生成方法和系统，属于音效生成领域。获取具有描述文本标注的音效数据，预训练一个扩散模型作为教师扩散模型，再采用蒸馏学习训练一个学生扩散模型，学生扩散模型的微分方程轨迹为分段直线轨迹，采用线性插值方式计算得到采样时间步对应的加噪梅尔频谱图特征；学生扩散模型以描述文本的文本特征为引导，对采样时间步对应的加噪梅尔频谱图特征预测噪声；在音效生成阶段，用户提供描述文本，初始化噪声，学生扩散模型逐段运行逆扩散去噪过程并生成最终音效。本发明通过向音效生成扩散模型引入分段整流技术，实现了快速的文本引导的音效生成，大幅提升了扩散模型低步数生成时生成的音效质量。

本发明授权一种基于分段整流的快速文本引导音效生成方法和系统在权利要求书中公布了：1.一种基于分段整流的快速文本引导音效生成方法，其特征在于，包括：获取由音效波形数据及其描述文本构成的训练集，预训练一个扩散模型作为教师扩散模型；预训练时，所述的教师扩散模型以描述文本的文本特征为引导，对基于音效波形数据的加噪梅尔频谱图特征逐步预测噪声；利用教师扩散模型采用蒸馏学习训练一个学生扩散模型，基于预定义段数将时间步划分为若干时间段，所述学生扩散模型的微分方程轨迹在每一段内为直线轨迹；教师扩散模型和学生扩散模型均为基于Transformer块的扩散模型；学生扩散模型的蒸馏学习阶段包括：利用教师扩散模型参数初始化学生扩散模型参数，将总时间步T划分为若干个时间段；从数据集D中采样一个训练批次数据，所述的数据集D由训练集对应的梅尔频谱图特征和文本特征组成；在每一个训练批次下执行下述步骤a至步骤d直至学生扩散模型收敛：步骤a，随机选定其中一个时间段，并在选定时间段内随机采样时间步，计算教师扩散模型与选定时间段的首尾时间步、所对应的时间步、；步骤b，基于梅尔频谱图特征和随机噪声运行扩散加噪过程，得到教师扩散模型在时间步的加噪梅尔频谱图特征；再基于加噪梅尔频谱图特征和文本特征逐步运行教师扩散模型的逆扩散去噪过程，直至得到教师扩散模型在时间步的加噪梅尔频谱图特征；步骤c，采用线性插值方式计算得到采样时间步对应的加噪梅尔频谱图特征：步骤d，学生扩散模型以文本特征为引导，对采样时间步对应的加噪梅尔频谱图特征预测噪声，计算损失函数以更新学生扩散模型；在蒸馏学习阶段的每一个训练批次下，在随机时间段内随机采样时间步，计算教师扩散模型在选定的随机时间段内首尾时间步对应的加噪梅尔频谱图特征，采用线性插值方式计算得到采样时间步对应的加噪梅尔频谱图特征；学生扩散模型以描述文本的文本特征为引导，对采样时间步对应的加噪梅尔频谱图特征预测噪声，与教师扩散模型的段间去噪噪声计算损失以更新学生扩散模型；在音效生成阶段，用户提供描述文本，初始化噪声，学生扩散模型以描述文本的文本特征为引导，逐段运行逆扩散去噪过程并生成最终音效。

如需购买、转让、实施、许可或投资类似专利技术，可联系本专利的申请人或专利权人浙江大学，其通讯地址为：310058 浙江省杭州市西湖区余杭塘路866号；或者联系龙图腾网官方客服，联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

浙江大学黄家伟获国家专利权

热门推荐

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务