【发明公布】基于视听多模态融合的土家语语音识别方法_北京工商大学_202310763651.5

导航：龙图腾网> 最新专利技术> 基于视听多模态融合的土家语语音识别方法_北京工商大学_202310763651.5

申请/专利权人：北京工商大学

申请日：2023-06-27

公开（公告）日：2023-09-05

公开（公告）号：CN116705002A

主分类号：G10L15/00

分类号：G10L15/00;G10L15/06;G10L15/02;G10L15/16;G10L15/04;G10L15/26

优先权：

专利状态码：在审-公开

法律状态：2023.09.05#公开

摘要：本发明公布了一种基于视听多模态融合的土家语语音识别方法，构建结合注意力机制与动态梯度下降DGM策略的基于视听多模态融合的土家语语音识别模型，对语音进行识别；在模型训练时使用视频数据对音频数据进行增强；构建的模型包括：特征提取模块、视听融合模块、动态梯度下降模块、土家语识别模块；视听融合模块是基于多头注意力机制，完成视频特征和音频特征的数据融合；动态梯度下降模块用于调控各模态的优化速度，结合视听融合模块完成模型的训练；使用链接时序分类CTC方法实现待识别语音的识别。本发明能够提高土家语语音识别的准确率。

主权项：1.一种基于视听多模态融合的土家语语音识别方法，其特征是，构建结合注意力机制与动态梯度下降DGM策略的基于视听多模态融合的土家语语音识别模型，对语音进行识别；在模型训练时使用视频数据对音频数据进行增强；提高土家语语音识别的准确率；基于视听多模态融合的土家语语音识别模型包括：特征提取模块、视听融合模块、动态梯度下降模块、土家语识别模块；其中，特征提取模块包括编码器；动态梯度下降模块包括分类器；特征提取模块用于提取音频特征和视频特征；视听融合模块是基于多头注意力机制，完成视频特征和音频特征的数据融合；动态梯度下降模块用于调控视听各模态的优化速度，结合视听融合模块完成模型的训练；土家语识别模块用于在模型训练完毕后，使用链接时序分类CTC方法识别输入的待识别语音；包括如下步骤：1收集土家语数据，包括：口语语料音频和视频；其中，将音频分为短句，并对每个短句进行数据的标注；将视频分为短视频；2通过特征提取模块分别对音频数据、视频数据进行特征提取；特征提取模块分别采用三维卷积和二维卷积进行视频特征的提取，采用短时傅里叶变换STFT进行音频特征的提取，得到每句话的音频特征向量与视频特征向量；将得到每句话的音频特征向量与视频特征向量进行编码，之后输入视听融合模块；3使用视频特征向量中的查询变量和值变量对音频数据进行加强，使视听两种模态实现视听对齐；并通过模型的动态梯度下降模块加入DGM策略，控制各模态的优化过程；即增加使用多头注意力机制与DGM策略对所构建的土家语语音识别模型进行训练，得到训练好的基于视听多模态的土家语语音识别模型；4输入待识别语音信号，经特征提取模块的STFT进行音频特征提取后，使用土家语识别模块中的Transformer进行编码，再利用土家语识别模块中的链接时序分类CTC输出模型预测的字符；通过上述步骤，实现基于视听多模态融合的土家语语音识别。

全文数据：

权利要求：

百度查询：北京工商大学基于视听多模态融合的土家语语音识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：供电系统、功率变换器以及功率变换电路的控制方法_华为数字能源技术有限公司_202410139301.6

下一篇：一种燃料电池用喷雾汽化加湿装置、系统与控制方法_武汉理工大学_202311803784.7

相关技术

供电系统、功率变换器以及功率变换电路的控制方法_华为数字能源技术有限公司_202410139301.6

一种燃料电池用喷雾汽化加湿装置、系统与控制方法_武汉理工大学_202311803784.7

为放大器操作进行的平台资源的选择_超威半导体公司_202280065509.7

一种燃气-蒸汽联合循环发电供热系统_西安热工研究院有限公司_202410130737.9

一种炮孔自动填塞机_新疆天河爆破工程有限公司_202410337157.7

一种基于氟硼荧的离子型多孔有机聚合物及其制备方法和光催化应用_常州大学_202311787384.1

一种茭白废弃叶多糖组分及其制备方法和用途_常熟理工学院_202410158334.5

一种肾病透析用体外固定装置_河北北方学院附属第一医院_202410336854.0

一种果树吊枝方法_上海市农业科学院_202410367417.5

一种转向管柱固定工装_芜湖普威技研有限公司_202311573386.0

一种设备锁定方法、装置及电子设备_联想(北京)有限公司_202410116925.6

用于制造一次性杯状件的机器_MS2责任有限公司_202280065197.X

龙图腾网&IPTOP

【发明公布】基于视听多模态融合的土家语语音识别方法_北京工商大学_202310763651.5

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务