首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于细分行业纠错词表的语音识别纠错方法及装置_西安电子科技大学广州研究院;广州云趣信息科技有限公司_202211439648.X 

申请/专利权人:西安电子科技大学广州研究院;广州云趣信息科技有限公司

申请日:2022-11-17

公开(公告)日:2024-05-14

公开(公告)号:CN116050391B

主分类号:G06F40/232

分类号:G06F40/232;G06F40/237;G06F40/284;G06F16/34;G06N3/0455;G06N3/0464;G06N3/048;G06N3/0895;G10L15/26;G10L15/16;G10L15/06

优先权:

专利状态码:有效-授权

法律状态:2024.05.14#授权;2023.05.19#实质审查的生效;2023.05.02#公开

摘要:本申请提供了一种基于细分行业纠错词表的语音识别纠错方法及装置,该基于细分行业纠错词表的语音识别纠错方法包括:获取待识别通话语音;对待识别通话语音进行语音识别,得到待识别文本;对待识别文本进行预处理,得到连续分段文本;获取预设的细分行业纠错词表,其中,细分行业纠错词表中包括错误词与正确词的映射关系;根据细分行业纠错词表对连续分段文本进行纠错,得到纠错后的文本。本申请通过构建一个细分行业纠错词表,用于对通用ASR语音识别结果的优化,可以提高语音识别的准确率。

主权项:1.一种基于细分行业纠错词表的语音识别纠错方法,其特征在于,所述基于细分行业纠错词表的语音识别纠错方法包括:获取待识别通话语音;对待识别通话语音进行语音识别,得到待识别文本;对待识别文本进行预处理,得到连续分段文本;获取预设的细分行业纠错词表,其中,所述细分行业纠错词表中包括错误词与正确词的映射关系;根据所述细分行业纠错词表对所述连续分段文本进行纠错,得到纠错后的文本;所述获取预设的细分行业纠错词表,包括:基于预设的BERT错词预测模型对通用ASR转写文本集中的预设转写样本文本进行错词预测,得到预测错词;对所述预设转写样本文本进行关键词提取,得到目标关键词;判断目标关键词和预测错词是否一致;若不一致,则获取人工纠错结果;根据人工纠错结果中的错误词和正确词的映射关系确定细分行业纠错词表;为了构建细分行业纠错词表,预先训练BERT错词预测模型;所述获取预设的细分行业纠错词表具体包括:1获取预设文本训练集;预设文本训练集为人工标注的训练集,预设文本训练集中样本数量少于通用ASR转写文本集;预设文本训练集包括多个样本文本,多个样本文本通过ASR转写得到;2基于MLM模型对预设文本训练集进行随机掩蔽处理,得到MLM训练集;基于MLM模型对预设文本训练集中的每个样本文本随机遮蔽15%的词,得到MLM训练集;3根据MLM训练集对BERT模型进行训练,得到BERT错词预测模型;BERT中利用Transformer的Encoder部分作为生成模型,多层Transformer一次性读取输入数据进行双向学习,学习到文本中词与词之间的上下文关系;Encoder在输入向量X的基础上加入位置编码从而获得新的词向量Xembedding:Xembedding=X+Xpos;Xpos用于对文本中每个词的位置进行编码表示,公式表示为: 其中pos表示词在文本中的位置,i代表词向量的维度;Encoder的每一层由多头自注意力机制和全连接前馈神经网络组成,其中注意力机制的计算公式为: 查询的内容query与需要注意的内容key分别被转化为矩阵表示Q与K,通过对两个矩阵进行点乘操作,以计算查询内容query与需要注意的内容key之间的相似度;然后,利用h个线性变换对Q,K,V进行投影,并将多个注意力值拼接起来就得到多头自注意力机制;多头注意力机制表示为:MultiHeadQ,K,V=Concathead1,...,headhWo 其中,Wi为线性映射函数,i∈[1,h], dmodel是输出的隐藏层维度,也等于词向量的维度;在注意力机制后利用残差连接将上一层的输入与输出连接起来,并使用LayerNormalization对隐藏层进行标准化;前馈神经网络是对隐藏层进行两层线性映射,之后再经过激活函数,就得到生成的向量表示;其中,BERT为经过预训练的BERT,利用呼叫中心细分行业数据对BERT进行微调;对于比对结果不一致的词进行人工纠错,同时将纠错词对按照错误词-正确词的对应关系记录在细分行业细分行业纠错词表中;所述对预设转写样本文本进行关键词提取,得到目标关键词,包括:1将预设转写样本文本输入预设卷积神经网络,得到文本摘要;预设卷积神经网络包括输入层、卷积层以及池化层,输入层使用WordEmbedding将输入的文本转化为二维矩阵;卷积层使用Text-CNN对二维矩阵进行特征抽取,得到多个特征向量;池化层对多个特征向量池化并拼接,得到文本摘要;首先,利用通用ASR将音频转写为文本,得到预设转写样本文本;然后,利用卷积神经网络CNN进行一次卷积,从初始的预设转写样本文本中提取重要特征,形成文本摘要;最后,利用分词工具对预设转写样本文本的摘要进行分词,并剔除停用词同时按词频排序,就获得了音频的目标关键词,这些目标关键词作为细分行业专业词语纠错任务中的正确标签;使用WordEmbedding将一维的文本转换为高维的词向量表示,词向量的每一行代表文本中的一个词;所述文本中共有n个词,每个词均被转化为k维的向量表示,WordEmbedding层输出的词向量矩阵形状为[n×k],该长度为n的文本表示为: 其中代表对词向量进行拼接操作;令xi:i+h-1表示长度为h的窗口中xi到xi+h-1的h个词向量,使用一个滤波器对该长度为h的窗口进行卷积操作,以获得特征ci:ci=fw·xi:i+h-1+b;其中表示偏置项,f是非线性激活函数;使用滤波器对文本中所有的窗口{x1:h,x2:h+1,…,xn-h+1:n}进行卷积操作以获得特征图:c=[c1,c2,...,cn-h+1]其中然后,经过池化操作得到的文本特征向量为就是文本摘要;2对文本摘要进行分词,得到多个文本分词;3将词频高于预设值的文本分词确定为目标关键词。

全文数据:

权利要求:

百度查询: 西安电子科技大学广州研究院;广州云趣信息科技有限公司 基于细分行业纠错词表的语音识别纠错方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术
相关技术