【发明授权】一种端到端的骨气导语音联合识别方法_西北工业大学_202210153909.5

导航：龙图腾网> 最新专利技术> 一种端到端的骨气导语音联合识别方法_西北工业大学_202210153909.5

申请/专利权人：西北工业大学

申请日：2022-02-20

公开（公告）日：2024-04-30

公开（公告）号：CN114495909B

主分类号：G10L15/02

分类号：G10L15/02;G10L15/06;G10L15/16;G10L15/20;G10L15/26

优先权：

专利状态码：有效-授权

法律状态：2024.04.30#授权;2022.05.31#实质审查的生效;2022.05.13#公开

摘要：本发明公开了一种端到端的骨气导语音联合识别方法，首先获取同步的气导和骨传导语音数据构建数据集，输出为对应的文本；再对气导和骨传导语音信号进行数据增强和提取声学特征；然后搭建基于Conformer的端到端深度神经网络模型，由三部分构成，分别为处理气导和骨传导语音的两个分支网络，以及基于多模态Transducer的融合网络；接下来训练神经网络，最终通过训练完成的网络得到对应的识别结果。本发明相比传统的只利用气导语音信号进行语音识别，联合识别的方法可以使得语音识别的错误率显著下降，提升了系统整体的识别性能。

主权项：1.一种端到端的骨气导语音联合识别方法，其特征在于，包括如下步骤：步骤1：获取同步的气导和骨传导语音数据xa,xb构建数据集，其中xa为纯净气导语音，xb为同步录制的骨传导语音，输出为对应的文本y；给气导语音添加噪声，即为其中为带噪的气导语音，na为环境噪声；最终的数据集为进一步将数据集分为训练集、验证集和测试集；步骤2：数据增强与特征提取；步骤2-1：对气导和骨传导语音信号的语速进行变化进行初步数据增强；步骤2-2：分别对改变语速的气导和骨传导语音信号提取声学特征；步骤2-3：对步骤2-2提取的声学特征用SpecAugment方法进行再次的数据增强；步骤3：搭建基于Conformer的端到端深度神经网络模型；该模型由三部分构成，分别为处理气导和骨传导语音的两个分支网络，以及基于多模态Transducer的融合网络；步骤3-1：气导和骨传导语音的两个分支网络均是Conformer网络架构，包括Conformer编码器和Truncated解码器；所述Conformer编码器由多个块构成，每个块包含两个FFN模块、一个多头自注意力模块和一个卷积模块；所述Truncated解码器由多个块构成，每个块包含一个多头自注意力模块、一个掩膜的多头自注意力模块和一个FFN模块；将步骤2-3增强过的气导和骨传导语音的声学特征依次分别经过Conformer编码器和Truncated解码器，转换为气导语音特征向量cl和骨传导语音特征向量gl；步骤3-2：多模态Transducer融合网络的输入为气导和骨传导语音经过分支网络转化后的气导语音特征向量cl和骨传导语音特征向量gl；首先，对cl进行线性特征变换得到key和value矩阵，分别表示为K和V；对gl进行线性特征变换得到query矩阵，表示为Q； K＝clWK，V＝clWV，其中WQ,WK,WV分别为可学习的线性变换矩阵；将Q和K送入ScalingSparsemax模块分别得到气导和骨传导特征的加权权重[za,zb]，其具体的计算公式为：其中，SSP.为scalingSparsemax操作；s为尺度因子，其具体计算公式为：s＝1+ReLULinear||x||,2，其中Linear表示线性变换，||x||为输入向量的二范数，ReLU.为激活函数，l∈{a,b}；再和V融合后的特征为：rl＝zlVT+FFNLayerNormzlVT融合后的特征rl再经过输出层，得到最终的基于注意力的概率pattw,其中w为预测的文本序列，即为多模态Transducer融合网络的输出；步骤4：训练神经网络；网络的训练分为两步：使用训练集数据和验证集数据，首先采用CTC损失函数分别训练气导和骨传导语音的两个分支网络，然后再加入多模态Transducer融合网络采用CTC损失函数训练整个网络；步骤5：模型测试；将测试集数据送入步骤4得到的训练完成的网络，即得到对应的识别结果。

全文数据：

权利要求：

百度查询：西北工业大学一种端到端的骨气导语音联合识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种快速安装的超声波水表及其安装方法_尚宏仪表科技(江苏)有限公司_202311847412.4

下一篇：一种数控龙门铣床_河北大恒重型机械有限公司_202410333473.7

相关技术

一种快速安装的超声波水表及其安装方法_尚宏仪表科技(江苏)有限公司_202311847412.4

一种数控龙门铣床_河北大恒重型机械有限公司_202410333473.7

一种矿井提升机防止跑车的控制方法与装置_洛阳九亿重工集团有限公司_202410421104.3

基于渐进学习的无对比剂CT血管造影重构方法及系统_中国人民解放军总医院第一医学中心_202410128554.3

一种双频段相控阵雷达智能抗干扰方法_成都金武科技有限公司_202410410853.6

全氟异丁腈的合成方法_天津市长芦化工新材料有限公司_202410424719.1

热解油提质为BTEX的两级催化方法_沙特阿拉伯石油公司_202280065181.9

一种数控机械加工用车削打磨装置_安庆师范大学_202311648983.5

一种异性粘结磁粉制备用原料筛选设备_天长市中德电子有限公司_202410411084.1

一种非均匀大气波导修正折射率的测算方法及系统_南京信息工程大学_202410123152.4

一种处理安全漏洞的方法及装置、系统、计算机程序产品_上海商米科技集团股份有限公司_202410155802.3

网站类别的识别方法及装置、设备、存储介质_中国移动通信集团有限公司_202311640121.8

语音相关技术

语音识别模型的训练、语音识别方法、装置及设备_北京捷通华声科技股份有限公司_202110865009.9

语音活动检测方法及装置_展讯通信(上海)有限公司_202410340960.6

燃气自闭阀语音报警器_林鹏达_202410256707.2

语音数据的处理方法及装置_海信视像科技股份有限公司_202280063346.9

语音唤醒方法、装置和设备_阿里巴巴集团控股有限公司_201910295356.5

一种快速布放语音警戒伸缩栅栏_江苏宁沪高速公路股份有限公司_202321739748.4

语音交互方法、装置、设备和存储介质_北京声智科技有限公司_202311825913.2

转向看后视镜语音提醒电路及装置_武汉市航盛汽车电子有限公司_202323185376.8

一种语音合成方法和装置_北京搜狗科技发展有限公司_202110769530.2

语音合成方法、装置及电子设备_北京捷通华声科技股份有限公司_202110071250.4

导相关技术

导湿保暖针织布_泉州市守创纺织科技发展有限公司_202322763395.8

一种用于导览机器人的导览信息调节方法及系统_广东轻工职业技术学院_202410330339.1

一种活动式导布卷曲装置_贵州宏洋橡胶制品有限公司_202322973639.5

一种高导磁多极磁棒线圈_南京金惠凯电子科技有限公司_202322631314.9

连接器和导通性测试装置_矢崎总业株式会社_202311415603.3

一种智慧园区导览装置_江苏国恒高科有限公司_202322219162.1

导风结构、吹风设备及烘干装置_深圳市八达威科技有限公司_202410359631.6

一种导风机构以及空调器_宁波奥克斯电气股份有限公司_201910871020.9

一种可移动式导医台_黄河科技学院_202322534353.7

一种螺旋搅轮循环导料装置_广州市中南橡胶再生资源股份有限公司_202322660946.8

联合相关技术

一种联合整地机_黑龙江北大荒现代农业服务集团众荣农机有限公司_202322552080.9

氢燃料携同光热联合循环热泵装置_李华玉_202310533401.2

一种实验室联合加样器_山西农业大学_202322540922.9

氢燃料携同光热联合循环热泵装置_李华玉_202310513755.0

一种治疗肿瘤的联合药物及其应用_珠海市人民医院_202311294215.4

基于版本管理的芯片联合仿真系统_沐曦集成电路(上海)有限公司_202410191219.8

风光储联合规划配置方法、系统和存储介质_国网浙江省电力有限公司_202311642097.1

一种电针联合视觉刺激镇痛装置_中国科学院深圳先进技术研究院_202311754703.9

基于物联网的智能门锁联合控制系统_山西丰鸿实业有限公司_202410425857.1

多能携同燃气-蒸汽联合循环动力装置_李华玉_202410180513.9

龙图腾网&IPTOP

【发明授权】一种端到端的骨气导语音联合识别方法_西北工业大学_202210153909.5

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务