买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种流式端到端语音识别模型训练和解码方法_中科极限元(杭州)智能科技股份有限公司_202010220477.6 

申请/专利权人:中科极限元(杭州)智能科技股份有限公司

申请日:2020-03-25

公开(公告)日:2024-04-23

公开(公告)号:CN111415667B

主分类号:G10L15/26

分类号:G10L15/26;G10L15/06;G10L15/16;G10L15/28;G10L15/02

优先权:

专利状态码:有效-授权

法律状态:2024.04.23#授权;2024.02.20#著录事项变更;2020.08.07#实质审查的生效;2020.07.14#公开

摘要:本发明属于电子信号处理技术领域,公开一种流式端到端语音识别模型的训练方法和解码方法,第一阶段采用交叉熵损失函数进行优化,第二阶段模型参数保持不变,继续使用负对数损失函数进行优化,第二阶段输入的不是整段的语音而是固定长度的语音片段。解码过程从音频采集器中以流式的方式读取语音数据,每0.4秒就将存储的语音提交给处理器;对固定长度的语音提取特征,得到语音特征序列;将语音特征序列以及之前预测得到的文字序列输入到解码器中进行预测,直到预测得到一个空格;重复上述步骤直到输入语音结束并解码得到最后一个空格标记。本发明解决了端到端语音识别模型无法直接应用于具有很高实时性要求的流式语音识别任务的问题。

主权项:1.一种流式端到端语音识别模型的训练方法,其特征在于,包括以下步骤步骤S100,获取语音训练数据和对应的文本标注训练数据,并提取所述语音训练数据的特征,得到语音特征序列;步骤S200,将降采样后的语音特征序列输入一个基于注意力机制的序列到序列模型的编码器中,输出声学编码状态序列;步骤S300,将语音对应文本序列和声学编码状态序列输入到解码器中,并计算输出概率分布;步骤S400,基于输出概率分布计算交叉熵损失;步骤S500,循环执行步骤S200-S500,直至达到预设的训练结束条件,得到训练好的端到端语音识别模型,至此完成第一阶段的模型训练;步骤S600,在第一阶段训练模型的基础上,将输入的语音分成N个固定长度的片段,然后依次输入编码器中,分别计算得到N个固定长度的片段上的声学编码状态序列;步骤S700,依次每个声学状态序列和整个文本序列输入到解码器中,输入得到一个概率分布网络;步骤S800,概率分布网络中存在多条对齐路径,依据前后向算法,计算得到所有可行路径的概率和,然后计算路径概率和的负对数损失,并计算参数对应的梯度,进行反向传播;步骤S900,循环执行步骤S600-S800,直至达到预设的训练结束条件,得到训练好的端到端语音识别模型,至此完成全部的模型训练。

全文数据:

权利要求:

百度查询: 中科极限元(杭州)智能科技股份有限公司 一种流式端到端语音识别模型训练和解码方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。