【发明公布】一种基于发音指导的语音识别文本纠错方法_昆明理工大学_202410163742.X

导航：龙图腾网> 最新专利技术> 一种基于发音指导的语音识别文本纠错方法_昆明理工大学_202410163742.X

申请/专利权人：昆明理工大学

申请日：2024-02-05

公开（公告）日：2024-05-14

公开（公告）号：CN118038873A

主分类号：G10L15/26

分类号：G10L15/26;G10L15/02;G10L15/18;G10L15/16;G06N3/0455;G06N3/08

优先权：

专利状态码：在审-实质审查的生效

法律状态：2024.05.31#实质审查的生效;2024.05.14#公开

摘要：本发明涉及基于发音指导的语音识别文本纠错方法；多粒度发音特征编码模块由单向GRU和四层Transformer编码器组成，从拼音序列中提取发音特征；发音和语义表征融合模块通过门控单元与BART编码器的最后一层隐藏状态进行融合，并将融合特征输入至BART解码器和复制校正决策模块；复制校正决策以发音和语义融合特征以及来自BART解码器最后一层隐藏状态作为输入，通过多头注意力计算某个字符是否应当复制或校正的概率分布，最终根据概率分布对语音识别文本中的每个字符进行保持或校正。本发明能有效降低语音识别词错率，有效缓解传统序列到序列纠错模型中存在的过度校正问题，提供更灵活的语音识别词错误检测和校正解决方案。

主权项：1.一种基于发音指导的语音识别文本纠错方法，其特征在于：所述方法包括如下：Step1、通过构建的多粒度发音特征编码模块从拼音序列中提取音节级和句子级的发音特征；Step2、发音和语义表征融合模块通过门控单元与BART编码器的最后一层隐藏状态进行融合，并将发音和语义表征融合特征输入至BART解码器和复制校正决策模块；Step3、复制校正决策模块以发音和语义表征融合特征以及来自BART解码器最后一层隐藏状态作为输入，通过多头注意力计算某个字符是否应当复制或校正的概率分布，最终根据概率分布对语音识别文本中的每个字符进行保持或校正。

全文数据：

权利要求：

百度查询：昆明理工大学一种基于发音指导的语音识别文本纠错方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：训练数据的生成方法、装置、电子设备和存储介质_OPPO广东移动通信有限公司_202211499299.0

下一篇：一种二维材料的介孔包覆壳层构筑方法_同济大学_202410220352.1

相关技术

训练数据的生成方法、装置、电子设备和存储介质_OPPO广东移动通信有限公司_202211499299.0

一种二维材料的介孔包覆壳层构筑方法_同济大学_202410220352.1

一种玉米种植用施肥装置及施肥方法_安庆师范大学_202410337560.X

访问第三方应用系统的方法和装置_北京嘀嘀无限科技发展有限公司_202211522859.X

一种基于电化学刻蚀出MXene的方法、MXene悬浊液及其用途_江苏大学_202210355260.5

上下料控制方法、装置、计算机设备和存储介质_深圳市衡亿安科技有限公司_202410144851.7

用于异常检测的设备和方法_日本电气株式会社_202211559192.0

一种可持续心电血氧血压监测的便携设备_河北汇丰医药有限公司_202410133584.3

5G小区业务信道干扰分析方法、装置及可读存储介质_中国联合网络通信集团有限公司_202410263226.4

一种加热机构及硅胶粘接机_苏州港阳科技有限公司_202410283250.4

一种生物源挥发性有机物采集装置_广西壮族自治区环境保护科学研究院_202410281467.1

图像解码设备、图像解码方法和存储介质_佳能株式会社_202410260046.0

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

【发明公布】一种基于发音指导的语音识别文本纠错方法_昆明理工大学_202410163742.X

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务