【发明授权】一种多语言连续语音流语音内容识别方法及系统_中国科学院声学研究所;北京中科信利技术有限公司_201910782981.2

申请/专利权人：中国科学院声学研究所;北京中科信利技术有限公司

申请日：2019-08-23

公开（公告）日：2024-03-19

公开（公告）号：CN112489622B

主分类号：G10L15/00

分类号：G10L15/00;G10L15/16;G10L15/26;G10L15/02;G10L15/06;G10L25/18

优先权：

专利状态码：有效-授权

法律状态：2024.03.19#授权;2021.03.30#实质审查的生效;2021.03.12#公开

摘要：本发明提出一种多语言连续语音流语音内容识别方法及系统，所述方法包括：将待识别的多语言连续语音流输入帧级别语种分类模型,输出段级别语种特征向量；将段级别语种特征向量输入段级别语种分类模型，输出段级别语种状态的后验概率分布；根据段级别语种状态的后验概率分布，基于维特比检索算法，计算多语言连续语音流的最佳的语种状态路径；根据所述最佳语种状态路径对待识别的多语言连续语音流进行切分获得语种状态区间；将切分后的语种状态区间送入多语言声学模型以及相应的多语言解码器中进行解码，得到所述多语言连续语音流的内容识别结果。本发明通过将语种分类模型与维特比检索算法相融合，解决了连续语音流中多语言内容并存的语言种类动态检测和识别的问题。

主权项：1.一种多语言连续语音流语音内容识别方法，所述方法包括：将待识别的多语言连续语音流输入帧级别语种分类模型,输出段级别语种特征向量；将段级别语种特征向量输入段级别语种分类模型，输出段级别语种状态的后验概率分布；根据段级别语种状态的后验概率分布，基于维特比检索算法，计算多语言连续语音流的最佳的语种状态路径；根据所述最佳语种状态路径对待识别的多语言连续语音流进行切分获得语种状态区间；将语种状态区间输入多语言声学模型以及相应的多语言解码器中进行解码，得到所述多语言连续语音流的内容识别结果；根据段级别语种状态的后验概率分布，基于维特比检索算法，计算多语言连续语音流的最佳的语种状态路径，具体包括：步骤3-1根据语种状态的后验概率分布，设置维特比检索的语种状态的自转概率ploop和跳转概率pskip，得到语种状态的转移矩阵A为：其中，各个语言的自转概率和跳转概率值相同，根据语种类别设置语种状态标号，所述语种状态标号为不相同的语种类别的标签，采用阿拉伯数字1,2,...,N为语种状态标号；转移矩阵A的各元素与语种状态标号的对应关系为：步骤3-2对预测的语种状态进行维特比检索，计算基于维特比检索的目标函数：其中ptranssT+1|sT表示由第T时刻多语言连续语音流的语种状态sT到第T+1时刻语种状态sT+1的转移概率：其中，语种状态sT和语种状态sT+1对应的语种分类标号在标注的语种分类标号范围内，T为段级别语种特征hsegment对应的统计周期；pemitsT+1|hsegment表示对段级别语种特征hsegment在语种状态sT+1上预测的后验概率：pemitsT+1|hsegment＝DNNLID段级别hsegment11其中，DNNLID为基于深度神经网络DNN的段级别语种分类器；步骤3-3以目标函数值最大的语种状态序列为最佳语种状态序列，根据所述最佳语种状态序列进行语种状态回溯获得最佳的语种状态路径。

全文数据：

权利要求：

百度查询：中国科学院声学研究所;北京中科信利技术有限公司一种多语言连续语音流语音内容识别方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种耐泥沙高密封性水泵控制阀_国电龙达电力设备(天津)有限责任公司_202322437322.X

下一篇：一种LED线性地埋灯_上海科铃纳光电科技有限公司_202322244017.9

相关技术

一种耐泥沙高密封性水泵控制阀_国电龙达电力设备(天津)有限责任公司_202322437322.X

一种LED线性地埋灯_上海科铃纳光电科技有限公司_202322244017.9

一种用于土地规划用测量装置_西安市城市发展资源信息有限公司_202322290527.X

一种现调机用消毒装置_中粮可口可乐饮料(山西)有限公司_202322565837.8

双组份胶水即停防干装置_重庆金芯麦斯传感器技术有限公司_202322250925.9

一种钢带波纹螺旋管接头防护模具_吉林建工集团有限公司_202322063597.1

高温堆直流调试防干扰回路_华能山东石岛湾核电有限公司_202322501565.5

一种盒式包装机输送机构_安徽从仁堂生物科技有限公司_202322459283.3

一种电池叠放平台_济源市万洋绿色能源有限公司_202322480402.3

一种吸尘器高密封过滤网_苏州佳奇克电子有限公司_202322293337.3

一种煤矿井下局部通风机远程开停装置_贵州贵能投资股份有限公司_202322392209.4

一种火车集卡装卸装置_杭州奥拓机电股份有限公司_202322190678.8

龙图腾网&IPTOP

【发明授权】一种多语言连续语音流语音内容识别方法及系统_中国科学院声学研究所;北京中科信利技术有限公司_201910782981.2

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务