申请/专利权人:北京语言大学
申请日:2019-08-01
公开(公告)日:2021-09-21
公开(公告)号:CN110517663B
主分类号:G10L15/00(20130101)
分类号:G10L15/00(20130101);G10L15/02(20060101);G10L15/06(20130101);G10L15/16(20060101)
优先权:
专利状态码:有效-授权
法律状态:2021.09.21#授权;2019.12.24#实质审查的生效;2019.11.29#公开
摘要:本发明提供一种语种识别方法及识别系统,能够提高语种识别系统的性能。所述方法包括:将每帧语音信号转换成发音属性特征;利用所述发音属性特征训练时延神经网络,其中,将所述发音属性特征输入时延神经网络,所述时延神经网络对输入的发音属性特征进行学习和分类,得到每种语种在发音属性特征空间中的分布,即语种模型;进行语种识别时,将待识别语音的发音属性特征输入已训练好的时延神经网络中,时延神经网络的输出结果为待识别语音和每种语种模型的相似度,其中,相似度最大的语种模型为待识别语音的语种类别。本发明涉及语音识别技术领域。
主权项:1.一种语种识别方法,其特征在于,包括:将每帧语音信号转换成发音属性特征;利用所述发音属性特征训练时延神经网络,其中,将所述发音属性特征输入时延神经网络,所述时延神经网络对输入的发音属性特征进行学习和分类,得到每种语种在发音属性特征空间中的分布,即语种模型;进行语种识别时,将待识别语音的发音属性特征输入已训练好的时延神经网络中,时延神经网络的输出结果为待识别语音和每种语种模型的相似度,其中,相似度最大的语种模型为待识别语音的语种类别;其中,在将每帧语音信号转换成发音属性特征之前,所述方法还包括:确定基于帧级别特征的用于识别发音属性的发音属性提取器;其中,所述确定基于帧级别特征的用于识别发音属性的发音属性提取器包括:依据预设的音素与发音属性之间的映射关系,将基于音素的训练语料转换为发音属性的标签,得到特征提取模块的训练集;利用所述训练集训练所述特征提取模块;其中,所述特征提取模块包含M个发音属性提取器,每个发音属性提取器对应一种发音属性,每种发音属性包括:若干个属性类;每帧语音信号通过每个发音属性提取器后,得到一个后验概率以表示该帧语音信号所属的发音属性的类别,将该帧语音信号的M种不同的发音属性的共Q类不同的属性类的后验概率进行排列,得到发音属性特征,其中,Q表示M种发音属性包含的属性类的数目。
全文数据:
权利要求:
百度查询: 北京语言大学 一种语种识别方法及识别系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。