【发明授权】一种多情感多说话人语音合成方法和系统_广东技术师范大学_202410006409.8

导航：龙图腾网> 最新专利技术> 一种多情感多说话人语音合成方法和系统_广东技术师范大学_202410006409.8

申请/专利权人：广东技术师范大学

申请日：2024-01-03

公开（公告）日：2024-03-22

公开（公告）号：CN117496944B

主分类号：G10L13/027

分类号：G10L13/027

优先权：

专利状态码：有效-授权

法律状态：2024.03.22#授权;2024.02.23#实质审查的生效;2024.02.02#公开

摘要：针对现有的开源情感语音库一般规模较小进而限制情感语音合成质量的缺点，本发明提供了一种多情感多说话人语音合成方法和系统。方法包括：首先使用现有开源情感语音库训练一个语音情感分类器，去除该分类器的分类层可得到一个语音情感编码器。然后利用该语音情感编码器提取语音中的情感特征训练一个情感转换器，利用情感转换器构建出一个新的多说话人多种情感的情感语音库，最后利用构建的情感语音库和开源情感语音库训练一个情感语音生成器实现多情感多说话人语音合成。本发明依据情感转换器构建新情感语音库，再利用新情感语音库训练情感语音生成器，扩展了情感语音数据集、提升了情感语音合成质量。

主权项：1.一种多情感多说话人语音合成方法，其特征在于，包括：步骤S01，获取数据集：获取一个情感语音库和一个多说话人语音库，所述情感语音库包括音频、音频对应的文本、语音情感标签和说话人标签，所述多说话人语音库包括音频、音频对应的文本和说话人标签；步骤S02，情感编码器训练：利用情感语音库去训练预设的语音情感分类器，调整语音情感分类器参数得到优化后的语音情感分类器，去掉语音情感分类器中的分类层，得到情感编码器；步骤S03，情感转换器训练：利用情感语音库训练预设的情感转换器，调整情感转换器参数，得到优化后的情感转换器；步骤S04，构建新情感语音库：利用步骤S03得到的优化后的情感转换器进行情感迁移，从而使多说话人语音库中能够表达各种目标情感，基于包含了不同目标情感的多说话人语音库中说话人的合成音频构建一个新的情感语音库；步骤S05，情感语音生成器训练：利用步骤S01中所述情感语音库以及S04构建的情感语音库作为一个完备的数据集去训练预设的情感语音生成器，调整情感语音生成器参数，得到优化后的情感语音生成器，将待处理的目标语音文本、目标语音情感特征、参考音频的梅尔频谱输入至所述情感语音生成器，得到最终的目标合成语音；其中，所述步骤S02的具体过程为：步骤2.1:构建语音情感分类器模型；步骤2.2:语音情感分类器模型包括一系列卷积块和线性单元，每个卷积块包括卷积层、批归一化层和激活函数ReLU；所述卷积块会对输入到模型中的梅尔频谱进行卷积处理，每个卷积块的输入都是上一个卷积块的输出，得到最后的卷积特征；对所述最后的卷积特征经过池化操作进行降维，并应用dropout进行正则化，得到正则化结果；将所述正则化结果输入至线性单元；线性单元第一层输出用于生成特征向量，第二层通过sigmoid函数将特征向量映射到每个情感类别的概率空间，用于分类，通过交叉熵损失函数对所述线性单元第二层输出结果与情感语音库中语音情感标签进行损失计算，得到情感预测损失值，并调整语音情感分类器模型参数；步骤2.3:计算调整后的语音情感分类模型在测试集上的准确率，准确率达到90%以上即可得到符合要求的语音情感分类器；步骤2.4:去除语音情感分类器模型中线性单元的第二层，其他网络层原样保留，得到情感编码器；其中，所述步骤S03的具体过程为：步骤3.1:构建情感转换器模型，所述情感转换器模型包括预处理模块、文本编码器、说话人编码器、时长预测器、音高预测器、能量预测器和解码器；步骤3.2:利用步骤2.4所述情感编码器提取情感语音库中音频对应的情感特征，具体如公式（1）所示：（1）：其中，表示步骤2.4的情感编码器，表示情感语音库中音频对应的梅尔频谱，表示情感编码器的输出即情感语音库中音频对应的情感特征；步骤3.3:将情感语音库训练集中包含的梅尔频谱输入至情感转换器中的说话人编码器，得到说话人特征，将情感语音库训练集中包含的音素序列输入至转换器中的文本编码器，得到文本特征，将说话人特征、文本特征、情感特征进行特征融合后并行输入给情感语音生成器中的时长预测器、音高预测器、能量预测器，得到预测的音素持续时间、音高、能量；步骤3.4:计算预测的音高、能量、音素持续时间与真实音高、能量、音素持续时间之间的损失以及真实梅尔频谱与情感转换器中解码器输出的梅尔频谱之间的损失，并分别标记为第一损失与第二损失，根据所述第一损失与第二损失之和调整情感转换器的参数，得到优化后的情感转换器。

全文数据：

权利要求：

百度查询：广东技术师范大学一种多情感多说话人语音合成方法和系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种高精度智能浊度检测装置_江苏奥坤仪表科技有限公司_202322546638.2

下一篇：一种液压锁密闭性测试装置_靖江市长源液压机械有限公司_202322518953.4

相关技术

一种高精度智能浊度检测装置_江苏奥坤仪表科技有限公司_202322546638.2

一种液压锁密闭性测试装置_靖江市长源液压机械有限公司_202322518953.4

用于高压柜体的固定防护装置_江苏贯中电气有限公司_202322341188.3

一种高效散热电源_广州市力为电子有限公司_202322175013.X

CNC加工用快速换线治具_东莞华清光学科技有限公司_202322418777.7

一种籽晶自动熔接结构_四川永祥光伏科技有限公司_202322431204.8

键合劈刀_有研(广东)新材料技术研究院_202322391831.3

一种尺寸可调节的中药材切片装置_安徽盛林国药饮片有限公司_202322230535.5

一种文旦柚栽培用的施肥装置_莆田冠腾科技有限公司_202322446584.2

一种具备快接功能的汽车线束_天津博尔特科技有限公司_202322504460.5

一种双卧轴连续式混凝土搅拌装置_广安金都混凝土有限公司_202322291527.1

一种环形导轨间歇循环通电装置_东莞市臻域自动化设备有限公司_202322566793.0

情感相关技术

基于深度学习的评论文本方面级情感分类方法及系统_上海哈蜂信息科技有限公司_202010776165.3

一种基于宽时间范畴的多模态情境情感识别方法及系统_北京理工大学珠海学院_202310985679.3

一种多模态短视频的情感可视化分析方法及系统_中国传媒大学_202410306890.2

基于多粒度的特征对比和融合框架的多模态情感分析方法_桂林电子科技大学_202410127215.3

一种细粒度情感元素抽取方法及系统_广东工业大学_202410062045.5

基于多模态特征和对比学习的语音情感识别方法及装置_中国人民解放军国防科技大学_202210825038.7

用于情感障碍辅助诊断的三维数字人脸处理方法与装置_浙江大学滨江研究院_202410269906.7

一种文本情感分类方法、装置、电子设备及存储介质_腾讯科技(深圳)有限公司_202010748294.1

文章的情感极性分析方法、装置、电子设备及存储介质_深圳市雅阅科技有限公司_201910935218.9

一种移动群体感知中数据隐私保护人脸情感识别方法_西安电子科技大学广州研究院_202311769590.X

说话相关技术

一种视频中说话人定位的方法、装置及计算机存储介质_清华珠三角研究院_202011373972.7

一种基于声学后验概率的任意说话人语音转换系统及方法_江苏清微智能科技有限公司_202011057900.1

一种说话人识别方法、装置、存储介质及设备_科大讯飞股份有限公司_202110807643.7

一种基于视线追踪技术的目标说话人语音提取方法及系统_本相空间(珠海)科技有限公司_202311729285.8

一种基于双层知识蒸馏说话人模型压缩系统和方法_江苏清微智能科技有限公司_202011079752.3

基于唇部时序关键点的人说话检测方法、计算机设备及存储介质_黑芝麻智能科技有限公司_202410083258.6

一种基于自适应类边界间隔的说话人识别方法、系统及存储介质_东北林业大学_202311867976.4

一种耳语说话人识别模型训练方法和装置_北京建筑大学_202410250740.4

一种针对说话人识别系统对抗样本的防御方法_贵州师范大学_202310918349.2

用于语音转换的可控说话者音频表示的方法及装置_清华大学_202410063968.2

方法相关技术

图像处理方法、图像处理模型和训练方法_北京百度网讯科技有限公司_202310251906.X

能力确定方法、上报方法、装置、设备及存储介质_北京小米移动软件有限公司_202280001087.7

定子及其制造方法_LG麦格纳电子动力总成有限公司_202110012057.3

通信方法及装置_华为技术有限公司_202211296381.3

通信方法及装置_华为技术有限公司_202010617172.9

信息处理方法_丰田自动车株式会社_202311358127.6

曝光方法、曝光装置、以及物品的制造方法_佳能株式会社_202311346914.9

蓄电设备的检查方法及制造方法_丰田自动车株式会社_202010574534.0

冰箱及其控制方法_LG电子株式会社_202080061858.2

冰箱及其控制方法_重庆海尔制冷电器有限公司_202211295888.7

龙图腾网&IPTOP

【发明授权】一种多情感多说话人语音合成方法和系统_广东技术师范大学_202410006409.8

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务