买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】基于视听多模态融合的土家语语音识别方法_北京工商大学_202310763651.5 

申请/专利权人:北京工商大学

申请日:2023-06-27

公开(公告)日:2023-09-05

公开(公告)号:CN116705002A

主分类号:G10L15/00

分类号:G10L15/00;G10L15/06;G10L15/02;G10L15/16;G10L15/04;G10L15/26

优先权:

专利状态码:在审-公开

法律状态:2023.09.05#公开

摘要:本发明公布了一种基于视听多模态融合的土家语语音识别方法,构建结合注意力机制与动态梯度下降DGM策略的基于视听多模态融合的土家语语音识别模型,对语音进行识别;在模型训练时使用视频数据对音频数据进行增强;构建的模型包括:特征提取模块、视听融合模块、动态梯度下降模块、土家语识别模块;视听融合模块是基于多头注意力机制,完成视频特征和音频特征的数据融合;动态梯度下降模块用于调控各模态的优化速度,结合视听融合模块完成模型的训练;使用链接时序分类CTC方法实现待识别语音的识别。本发明能够提高土家语语音识别的准确率。

主权项:1.一种基于视听多模态融合的土家语语音识别方法,其特征是,构建结合注意力机制与动态梯度下降DGM策略的基于视听多模态融合的土家语语音识别模型,对语音进行识别;在模型训练时使用视频数据对音频数据进行增强;提高土家语语音识别的准确率;基于视听多模态融合的土家语语音识别模型包括:特征提取模块、视听融合模块、动态梯度下降模块、土家语识别模块;其中,特征提取模块包括编码器;动态梯度下降模块包括分类器;特征提取模块用于提取音频特征和视频特征;视听融合模块是基于多头注意力机制,完成视频特征和音频特征的数据融合;动态梯度下降模块用于调控视听各模态的优化速度,结合视听融合模块完成模型的训练;土家语识别模块用于在模型训练完毕后,使用链接时序分类CTC方法识别输入的待识别语音;包括如下步骤:1收集土家语数据,包括:口语语料音频和视频;其中,将音频分为短句,并对每个短句进行数据的标注;将视频分为短视频;2通过特征提取模块分别对音频数据、视频数据进行特征提取;特征提取模块分别采用三维卷积和二维卷积进行视频特征的提取,采用短时傅里叶变换STFT进行音频特征的提取,得到每句话的音频特征向量与视频特征向量;将得到每句话的音频特征向量与视频特征向量进行编码,之后输入视听融合模块;3使用视频特征向量中的查询变量和值变量对音频数据进行加强,使视听两种模态实现视听对齐;并通过模型的动态梯度下降模块加入DGM策略,控制各模态的优化过程;即增加使用多头注意力机制与DGM策略对所构建的土家语语音识别模型进行训练,得到训练好的基于视听多模态的土家语语音识别模型;4输入待识别语音信号,经特征提取模块的STFT进行音频特征提取后,使用土家语识别模块中的Transformer进行编码,再利用土家语识别模块中的链接时序分类CTC输出模型预测的字符;通过上述步骤,实现基于视听多模态融合的土家语语音识别。

全文数据:

权利要求:

百度查询: 北京工商大学 基于视听多模态融合的土家语语音识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。