申请/专利权人:南京硅基智能科技有限公司
申请日:2021-03-11
公开(公告)日:2021-04-09
公开(公告)号:CN112634882A
主分类号:G10L15/06(20130101)
分类号:G10L15/06(20130101);G10L15/16(20060101);G10L19/26(20130101);G10L25/87(20130101)
优先权:
专利状态码:有效-授权
法律状态:2021.06.04#授权;2021.04.27#实质审查的生效;2021.04.09#公开
摘要:本发明提供一种语音识别系统端到端实时语音端点检测,从音频信号到有效端点的判断(实时从声波判断出是人声或者是环境噪音),而且能够实时响应。通过一种端到端实时语音端点检测神经网络模型实现,该模型至少包括卷积神经网络滤波器层、RNN层,和多特征融合层;所述多特征融合层配置为,从在前的神经网络学习不同特征并融;本发明基于上述神经网络模型,无需进行特征提取的操作,从而实现可基于很短的语音实现实时识别,上述模型与训练时长的设置对于硬件资源要求相对于现有技术也有大幅降低。
主权项:1.一种端到端实时语音端点检测神经网络模型,其特征在于,所述模型至少包括神经网络滤波器、循环神经网络RNN层、多特征融合层;所述神经网络滤波器至少包括卷积子层,所述卷积子层配置包括,对目标音频信号进行特征提取,以输出所述目标音频信号的第一特征;其中,所述卷积子层是根据带通滤波器幅值建立的,所述带通滤波器幅值由滤波器训练参数进行确定,所述滤波器训练参数是根据预先设置的样本数据训练所得到的;所述第一特征为所述目标音频信号的局部特征,所述第一特征是根据训练得到的所述滤波器训练参数提取的;所述RNN层配置包括,输入所述第一特征,并至少根据所述第一特征获取所述目标音频信号的第二特征;所述第二特征为所述目标音频信号的局部特征;所述多特征融合层配置包括,对所述RNN层中的至少一个子层所获取的所述第二特征进行特征融合,以得到所述目标音频信号的表示。
全文数据:
权利要求:
百度查询: 南京硅基智能科技有限公司 端到端实时语音端点检测神经网络模型、训练方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。