买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于深度学习和矢量预测的语音压缩方法及系统_山东省计算中心(国家超级计算济南中心)_202311743425.7 

申请/专利权人:山东省计算中心(国家超级计算济南中心)

申请日:2023-12-19

公开(公告)日:2024-04-02

公开(公告)号:CN117423348B

主分类号:G10L19/04

分类号:G10L19/04;G10L25/30

优先权:

专利状态码:有效-授权

法律状态:2024.04.02#授权;2024.02.06#实质审查的生效;2024.01.19#公开

摘要:本公开提供了基于深度学习和矢量预测的语音压缩方法及系统,涉及语音信号处理技术领域,包括:获取低速率下的多帧语音信号,并预处理为语音序列;将当前帧语音序列作为第一深度网络的输入信号提取声学特征,利用所述声学特征预测下一帧语音序列的声学特征,并作为预测矢量;对原声学特征与预测矢量作差,获取差值矢量,并在设计的码本中寻找与差值矢量最匹配的量化矢量,作为残差索引传输到第二深度网络,第二深度网络根据接收的残差索引,在码本中找到相应的差值量化矢量,将差值量化矢量与预测矢量相加,得到重构矢量,对所述重构矢量解码输出合成语音,本公开提高了语音压缩编码合成的质量。

主权项:1.基于深度学习和矢量预测的语音压缩方法,其特征在于,包括:获取低速率下的多帧语音信号,并预处理为语音序列;输入语音信号为8KHz采样的语音;将当前帧语音序列作为第一深度网络的输入信号提取声学特征,通过预测矢量预测器,利用所述声学特征预测下一帧语音序列的声学特征,并作为预测矢量;对原声学特征与预测矢量作差,获取差值矢量,并在设计的码本中寻找与差值矢量最匹配的量化矢量,作为残差索引传输到第二深度网络,第二深度网络根据接收的残差索引,在码本中找到相应的差值量化矢量,将差值量化矢量与预测矢量相加,得到重构矢量,对所述重构矢量解码输出合成语音,并对生成语音的真伪通过判别器进行判断;预测矢量量化的过程为:在量化端,设计码本大小为N,即码本包含N个码字,其中每个码字代表每一块矢量映射为适合在信道中传输的索引,解码端根据此索引还原出重构块矢量,帧长为L,帧率为M,每个码本可以编码比特;预测矢量由以往的重构矢量预测得到;预测矢量预测器由4层时序卷积网络块构成,时序卷积网络块首先经过通道数为512的一维卷积,随后经过内核为3的扩张卷积,扩张大小为D,最后经过通道数为512的一维卷积,在第一层和最后一层加入跳过链接;通过引入多尺度STFT鉴别器和多周期判别器判断生成语音的真伪,STFT鉴别器由对多尺度复值STFT进行操作的相同结构化网络组成,其中实部和虚部连接,每个子网络由一个二维卷积层组成;多周期判别器是子鉴别器的混合,每个子鉴别器只接受输入语音序列的等间距样本,在通过查看输入语音序列的不同部分来捕获彼此不同的隐式结构。

全文数据:

权利要求:

百度查询: 山东省计算中心(国家超级计算济南中心) 基于深度学习和矢量预测的语音压缩方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。