【发明授权】基于DenseNet STARGAN的多对多说话人转换方法_南京邮电大学_202010179723.8

导航：龙图腾网> 最新专利技术> 基于DenseNet STARGAN的多对多说话人转换方法_南京邮电大学_202010179723.8

申请/专利权人：南京邮电大学

申请日：2020-03-16

公开（公告）日：2024-02-23

公开（公告）号：CN111833855B

主分类号：G10L15/08

分类号：G10L15/08;G10L15/16;G10L15/18;G10L15/06

优先权：

专利状态码：有效-授权

法律状态：2024.02.23#授权;2020.12.04#著录事项变更;2020.11.13#实质审查的生效;2020.10.27#公开

摘要：本发明公开了一种基于DenseNetSTARGAN的多对多说话人转换方法，采用STARGAN与DenseNet相结合来实现语音转换系统，并将GELU激活函数引入STARGAN中。一方面利用DenseNet来解决训练过程中网络退化问题，有助于训练过程中梯度的反向传播，提升深层网络训练效率，另一方面，使用GELU激活函数替换掉常规使用的ReLU激活函数，具有更强的非线性表示能力，有效解决了ReLU在负区间处于失活状态的缺点，进一步缓解了训练过程中网络退化的问题，增强了STARGAN模型的表征能力，很好地改善了转换后语音的个性相似度和语音质量，实现了一种高质量的多说话人到多说话人的语音转换方法，在跨语种语音转换、电影配音、语音翻译等领域有良好的应用前景。

主权项：1.一种基于DenseNetSTARGAN的多对多说话人转换方法，其特征在于，包括训练阶段和转换阶段，所述训练阶段包括以下步骤：（1.1）获取训练语料，训练语料由多名说话人的语料组成，包含源说话人和目标说话人；（1.2）将所述的训练语料通过WORLD语音分析合成模型，提取出各说话人语料的频谱特征、非周期性特征以及基频特征；（1.3）将源说话人的频谱特征、目标说话人的频谱特征、源说话人标签以及目标说话人标签特征，输入到DenseNetSTARGAN网络进行训练，所述的DenseNetSTARGAN网络由生成器G、鉴别器D、分类器C组成，所述的生成器G由编码网络和解码网络构成，在编码网络与解码网络之间搭建若干层由DenseNet连接的卷积网络；所述的生成器G的编码网络包括5个卷积层，生成器G的解码网络包括5个反卷积层，在编码网络和解码网络之间还有6层由DenseNet连接的卷积网络，将卷积网络的第一个卷积层的输出与后面的五个卷积层的输出分别拼接，将卷积网络的第二个卷积层的输出与后面四个卷积层的输出分别拼接，将卷积网络的第三个卷积层的输出与后面三个卷积层的输出分别拼接，将卷积网络的第四个卷积层的输出与后面两个卷积层的输出分别拼接，将第五个卷积层的输出与最后一个卷积层的输出直接拼接，从而这6个卷积层形成密集连接的卷积网络；（1.4）训练过程使生成器G的损失函数、鉴别器D的损失函数、分类器C的损失函数尽量小，直至设置的迭代次数，从而得到训练好的DenseNetSTARGAN网络；（1.5）构建从源说话人的语音基频到目标说话人的语音基频的基频转换函数；所述转换阶段包括以下步骤：（2.1）将待转换语料中源说话人的语音通过WORLD语音分析合成模型提取出频谱特征、非周期性特征和基频特征；（2.2）将上述源说话人的频谱包络特征、目标说话人标签特征输入步骤（1.4）中训练好的DenseNetSTARGAN网络，重构出目标说话人频谱特征；（2.3）通过步骤（1.5）得到的基频转换函数，将步骤（2.1）中提取出的源说话人基频特征转换为目标说话人的基频特征；（2.4）将步骤（2.2）中得到的重构目标说话人频谱特征、步骤（2.3）中得到的目标说话人的基频特征和步骤（2.1）中提取的非周期性特征通过WORLD语音分析合成模型，合成得到转换后的说话人语音。

全文数据：

权利要求：

百度查询：南京邮电大学基于DenseNet STARGAN的多对多说话人转换方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：消息推送方法、装置、电子设备及存储介质_深圳市优必选科技股份有限公司_202311818692.6

下一篇：一种食品加工机的控制方法和食品加工机_九阳股份有限公司_202211258558.0

相关技术

消息推送方法、装置、电子设备及存储介质_深圳市优必选科技股份有限公司_202311818692.6

一种食品加工机的控制方法和食品加工机_九阳股份有限公司_202211258558.0

优化电池储能系统的方法及电池储能系统和控制器_江苏林洋储能技术有限公司_202410157961.7

一种高压耐磨球阀_佛山市添翼威机械制造有限公司_202410193581.9

一种word转数据库字段的通用方法_浙江金汇数字技术有限公司_202410118665.6

车载摄像头控制方法、车载摄像头装置、介质及车辆_北京罗克维尔斯科技有限公司_202211275867.9

基于BIM的预制装配式市政道路卧石施工建造方法_中交二航局第一工程有限公司_202410216017.4

信息处理装置、信息处理方法和程序_索尼集团公司_202280060724.8

一种物业投诉电话处理方法及系统_深圳市南方明珠实业有限公司_202410185542.4

半导体结构及其形成方法_中芯国际集成电路制造(上海)有限公司_202211307251.5

一种促进香蕉植保素PPs生物合成及增强抗病性的方法_广东省农业科学院果树研究所_202311695977.5

一种利用烟气培养产油微藻的方法_中国石油化工股份有限公司_202211256707.X

龙图腾网&IPTOP

【发明授权】基于DenseNet STARGAN的多对多说话人转换方法_南京邮电大学_202010179723.8

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务