买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种端到端的骨气导语音联合识别方法_西北工业大学_202210153909.5 

申请/专利权人:西北工业大学

申请日:2022-02-20

公开(公告)日:2024-04-30

公开(公告)号:CN114495909B

主分类号:G10L15/02

分类号:G10L15/02;G10L15/06;G10L15/16;G10L15/20;G10L15/26

优先权:

专利状态码:有效-授权

法律状态:2024.04.30#授权;2022.05.31#实质审查的生效;2022.05.13#公开

摘要:本发明公开了一种端到端的骨气导语音联合识别方法,首先获取同步的气导和骨传导语音数据构建数据集,输出为对应的文本;再对气导和骨传导语音信号进行数据增强和提取声学特征;然后搭建基于Conformer的端到端深度神经网络模型,由三部分构成,分别为处理气导和骨传导语音的两个分支网络,以及基于多模态Transducer的融合网络;接下来训练神经网络,最终通过训练完成的网络得到对应的识别结果。本发明相比传统的只利用气导语音信号进行语音识别,联合识别的方法可以使得语音识别的错误率显著下降,提升了系统整体的识别性能。

主权项:1.一种端到端的骨气导语音联合识别方法,其特征在于,包括如下步骤:步骤1:获取同步的气导和骨传导语音数据xa,xb构建数据集,其中xa为纯净气导语音,xb为同步录制的骨传导语音,输出为对应的文本y;给气导语音添加噪声,即为其中为带噪的气导语音,na为环境噪声;最终的数据集为进一步将数据集分为训练集、验证集和测试集;步骤2:数据增强与特征提取;步骤2-1:对气导和骨传导语音信号的语速进行变化进行初步数据增强;步骤2-2:分别对改变语速的气导和骨传导语音信号提取声学特征;步骤2-3:对步骤2-2提取的声学特征用SpecAugment方法进行再次的数据增强;步骤3:搭建基于Conformer的端到端深度神经网络模型;该模型由三部分构成,分别为处理气导和骨传导语音的两个分支网络,以及基于多模态Transducer的融合网络;步骤3-1:气导和骨传导语音的两个分支网络均是Conformer网络架构,包括Conformer编码器和Truncated解码器;所述Conformer编码器由多个块构成,每个块包含两个FFN模块、一个多头自注意力模块和一个卷积模块;所述Truncated解码器由多个块构成,每个块包含一个多头自注意力模块、一个掩膜的多头自注意力模块和一个FFN模块;将步骤2-3增强过的气导和骨传导语音的声学特征依次分别经过Conformer编码器和Truncated解码器,转换为气导语音特征向量cl和骨传导语音特征向量gl;步骤3-2:多模态Transducer融合网络的输入为气导和骨传导语音经过分支网络转化后的气导语音特征向量cl和骨传导语音特征向量gl;首先,对cl进行线性特征变换得到key和value矩阵,分别表示为K和V;对gl进行线性特征变换得到query矩阵,表示为Q; K=clWK,V=clWV,其中WQ,WK,WV分别为可学习的线性变换矩阵;将Q和K送入ScalingSparsemax模块分别得到气导和骨传导特征的加权权重[za,zb],其具体的计算公式为: 其中,SSP.为scalingSparsemax操作;s为尺度因子,其具体计算公式为:s=1+ReLULinear||x||,2,其中Linear表示线性变换,||x||为输入向量的二范数,ReLU.为激活函数,l∈{a,b};再和V融合后的特征为:rl=zlVT+FFNLayerNormzlVT融合后的特征rl再经过输出层,得到最终的基于注意力的概率pattw,其中w为预测的文本序列,即为多模态Transducer融合网络的输出;步骤4:训练神经网络;网络的训练分为两步:使用训练集数据和验证集数据,首先采用CTC损失函数分别训练气导和骨传导语音的两个分支网络,然后再加入多模态Transducer融合网络采用CTC损失函数训练整个网络;步骤5:模型测试;将测试集数据送入步骤4得到的训练完成的网络,即得到对应的识别结果。

全文数据:

权利要求:

百度查询: 西北工业大学 一种端到端的骨气导语音联合识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。