买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种多情感多说话人语音合成方法和系统_广东技术师范大学_202410006409.8 

申请/专利权人:广东技术师范大学

申请日:2024-01-03

公开(公告)日:2024-03-22

公开(公告)号:CN117496944B

主分类号:G10L13/027

分类号:G10L13/027

优先权:

专利状态码:有效-授权

法律状态:2024.03.22#授权;2024.02.23#实质审查的生效;2024.02.02#公开

摘要:针对现有的开源情感语音库一般规模较小进而限制情感语音合成质量的缺点,本发明提供了一种多情感多说话人语音合成方法和系统。方法包括:首先使用现有开源情感语音库训练一个语音情感分类器,去除该分类器的分类层可得到一个语音情感编码器。然后利用该语音情感编码器提取语音中的情感特征训练一个情感转换器,利用情感转换器构建出一个新的多说话人多种情感的情感语音库,最后利用构建的情感语音库和开源情感语音库训练一个情感语音生成器实现多情感多说话人语音合成。本发明依据情感转换器构建新情感语音库,再利用新情感语音库训练情感语音生成器,扩展了情感语音数据集、提升了情感语音合成质量。

主权项:1.一种多情感多说话人语音合成方法,其特征在于,包括:步骤S01,获取数据集:获取一个情感语音库和一个多说话人语音库,所述情感语音库包括音频、音频对应的文本、语音情感标签和说话人标签,所述多说话人语音库包括音频、音频对应的文本和说话人标签;步骤S02,情感编码器训练:利用情感语音库去训练预设的语音情感分类器,调整语音情感分类器参数得到优化后的语音情感分类器,去掉语音情感分类器中的分类层,得到情感编码器;步骤S03,情感转换器训练:利用情感语音库训练预设的情感转换器,调整情感转换器参数,得到优化后的情感转换器;步骤S04,构建新情感语音库:利用步骤S03得到的优化后的情感转换器进行情感迁移,从而使多说话人语音库中能够表达各种目标情感,基于包含了不同目标情感的多说话人语音库中说话人的合成音频构建一个新的情感语音库;步骤S05,情感语音生成器训练:利用步骤S01中所述情感语音库以及S04构建的情感语音库作为一个完备的数据集去训练预设的情感语音生成器,调整情感语音生成器参数,得到优化后的情感语音生成器,将待处理的目标语音文本、目标语音情感特征、参考音频的梅尔频谱输入至所述情感语音生成器,得到最终的目标合成语音;其中,所述步骤S02的具体过程为:步骤2.1:构建语音情感分类器模型;步骤2.2:语音情感分类器模型包括一系列卷积块和线性单元,每个卷积块包括卷积层、批归一化层和激活函数ReLU;所述卷积块会对输入到模型中的梅尔频谱进行卷积处理,每个卷积块的输入都是上一个卷积块的输出,得到最后的卷积特征;对所述最后的卷积特征经过池化操作进行降维,并应用dropout进行正则化,得到正则化结果;将所述正则化结果输入至线性单元;线性单元第一层输出用于生成特征向量,第二层通过sigmoid函数将特征向量映射到每个情感类别的概率空间,用于分类,通过交叉熵损失函数对所述线性单元第二层输出结果与情感语音库中语音情感标签进行损失计算,得到情感预测损失值,并调整语音情感分类器模型参数;步骤2.3:计算调整后的语音情感分类模型在测试集上的准确率,准确率达到90%以上即可得到符合要求的语音情感分类器;步骤2.4:去除语音情感分类器模型中线性单元的第二层,其他网络层原样保留,得到情感编码器;其中,所述步骤S03的具体过程为:步骤3.1:构建情感转换器模型,所述情感转换器模型包括预处理模块、文本编码器、说话人编码器、时长预测器、音高预测器、能量预测器和解码器;步骤3.2:利用步骤2.4所述情感编码器提取情感语音库中音频对应的情感特征,具体如公式(1)所示: (1):其中,表示步骤2.4的情感编码器,表示情感语音库中音频对应的梅尔频谱,表示情感编码器的输出即情感语音库中音频对应的情感特征;步骤3.3:将情感语音库训练集中包含的梅尔频谱输入至情感转换器中的说话人编码器,得到说话人特征,将情感语音库训练集中包含的音素序列输入至转换器中的文本编码器,得到文本特征,将说话人特征、文本特征、情感特征进行特征融合后并行输入给情感语音生成器中的时长预测器、音高预测器、能量预测器,得到预测的音素持续时间、音高、能量;步骤3.4:计算预测的音高、能量、音素持续时间与真实音高、能量、音素持续时间之间的损失以及真实梅尔频谱与情感转换器中解码器输出的梅尔频谱之间的损失,并分别标记为第一损失与第二损失,根据所述第一损失与第二损失之和调整情感转换器的参数,得到优化后的情感转换器。

全文数据:

权利要求:

百度查询: 广东技术师范大学 一种多情感多说话人语音合成方法和系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。