买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】语音识别系统的词序纠错方法_塔里木大学_202311805859.5 

申请/专利权人:塔里木大学

申请日:2023-12-26

公开(公告)日:2024-03-19

公开(公告)号:CN117727293A

主分类号:G10L15/02

分类号:G10L15/02;G10L15/26;G10L15/16;G10L25/18

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.04.05#实质审查的生效;2024.03.19#公开

摘要:本发明属于语音识别技术领域,尤其为语音识别系统的词序纠错方法,所述词序纠错方法包括如下步骤:语音信号预处理;特征提取;使用语音识别模型进行语音识别,将语音转化为原始文本;上下文建模及错误检测和纠错;建立文本对照库;建立规则逻辑库。本发明中,通过原纠错系统中抽取的实体词建库,通过原始语音信号的录入场景、时间戳和人物的语言习惯建立文本对照库,确定一般常规词序,与实体词库进行对照,将该规定场景、时间戳和人物下的实体词库,在原始文本的上下文中的词序,确定在该规定场景、时间戳和人物下该实体词的原始意图,从而调整每一个实体词在原始文本中上下文的具体位置,生成符合一般人阅读习惯的文本。

主权项:1.语音识别系统的词序纠错方法,该词序纠错方法用于规定场景、规定时间戳和规定人物下,语音识别系统的原始语音识别,生成规定格式的语音识别文本,其特征在于:所述词序纠错方法包括如下步骤:Sp1:语音信号预处理:对输入的原始语音信号,所述语音识别系统进行预处理,提高信号质量;Sp2:特征提取:将经过预处理的原始语音信号转化为特征表示;Sp3:语音识别模型:使用语音识别模型进行语音识别,将语音转化为原始文本;Sp4:上下文建模及错误检测和纠错:结合所述原始文本的上下文信息,利用语言模型对识别结果的原始文本进行优化,抽出实体词,建立实体词库,并根据实体词进行原始文本的多字、少字和同音词的纠错;Sp5:建立文本对照库:根据语音识别的所述规定场景、规定时间戳或规定人物,录入所述规定场景、规定时间戳或规定人物下对应的训练文本,建立文本对照库;Sp6:建立规则逻辑库:根据语音识别文本的规定格式需求,建立规则逻辑库,并根据规则逻辑库,将实体词库的每一个实体词与文本对照库进行对照,调整每一个实体词在原始文本中上下文的具体位置,生成规定格式的语音识别文本。

全文数据:

权利要求:

百度查询: 塔里木大学 语音识别系统的词序纠错方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。