买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】语种识别方法、装置、设备及存储介质_平安科技(深圳)有限公司_202110593396.5 

申请/专利权人:平安科技(深圳)有限公司

申请日:2021-05-28

公开(公告)日:2024-02-27

公开(公告)号:CN113327584B

主分类号:G10L15/00

分类号:G10L15/00;G10L15/16;G10L15/06;G10L15/02

优先权:

专利状态码:有效-授权

法律状态:2024.02.27#授权;2021.11.16#实质审查的生效;2021.08.31#公开

摘要:本申请涉及人工智能和语音识别领域,具体公开了一种语种识别方法、装置、设备及存储介质,所述方法包括:获取样本音频和样本音频对应的音频标签;对样本音频进行数据处理,得到样本音频对应的特征矩阵;将特征矩阵输入第一神经网络,得到特征矩阵对应的帧内特征;将特征矩阵输入第二神经网络,得到特征矩阵对应的帧间特征;根据帧内特征和帧间特征进行逻辑回归,以对样本音频进行语种识别,得到样本音频的预测类别;基于样本音频的预测类别和音频标签对第一神经网络和第二神经网络进行迭代训练,并将训练完成的第一神经网络和训练完成的第二神经网络合并得到语种识别模型,并基于语种识别模型对待识别语音进行语种识别。提高了语种识别的准确率。

主权项:1.一种语种识别方法,其特征在于,包括:获取样本音频和所述样本音频对应的音频标签;对所述样本音频进行数据处理,得到所述样本音频对应的特征矩阵;将所述特征矩阵输入第一神经网络,得到所述特征矩阵对应的帧内特征;所述帧内特征用于表征语种的发音特性,所述第一神经网络包括使用一维空洞卷积神经网络构建的五层编码器;所述将所述特征矩阵输入第一神经网络,得到所述特征矩阵对应的帧内特征,包括:将所述特征矩阵输入第一神经网络,得到多个输出特征,对多个所述输出特征进行平均,得到帧内特征;或者将所述特征矩阵输入第一神经网络,得到多个输出特征,将多个所述输出特征作为帧内特征;将所述特征矩阵输入第二神经网络,得到所述特征矩阵对应的帧间特征;所述帧间特征用于表征语种的时序依赖信息,所述第二神经网络包括使用一维空洞卷积神经网络构建的五层编码器和自回归模型;根据所述帧内特征和所述帧间特征进行逻辑回归,以对所述样本音频进行语种识别,得到所述样本音频的预测类别;所述根据所述帧内特征和所述帧间特征进行逻辑回归,以对所述样本音频进行语种识别,得到所述样本音频的预测类别,包括:对所述帧内特征和所述帧间特征进行拼接融合,得到拼接特征;基于所述拼接特征进行逻辑回归,对所述拼接特征对应的样本音频进行打分,以根据所述样本音频的得分确定所述样本音频的预测类别;基于所述样本音频的预测类别和所述音频标签对所述第一神经网络和所述第二神经网络进行迭代训练,将训练完成的第一神经网络和训练完成的第二神经网络合并得到语种识别模型,并基于所述语种识别模型对待识别语音进行语种识别;所述方法还包括:统计所述样本音频的识别正确的正确数量和所述样本音频的总数量,并给予所述正确数量和所述总数量计算所述样本音频的识别准确率;若所述识别准确率大于或等于预设阈值,则完成对所述第一神经网络和所述第二神经网络的训练;其中,若所述样本音频的预测类别和所述样本音频的音频标签相同,则确定对所述样本音频的识别结果为识别正确。

全文数据:

权利要求:

百度查询: 平安科技(深圳)有限公司 语种识别方法、装置、设备及存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。