买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】可定制的低延时命令词识别方法及装置_普强时代(珠海横琴)信息技术有限公司_202110865579.8 

申请/专利权人:普强时代(珠海横琴)信息技术有限公司

申请日:2021-07-29

公开(公告)日:2024-04-16

公开(公告)号:CN113593560B

主分类号:G10L15/22

分类号:G10L15/22;G10L15/16;G10L15/06;G10L15/02

优先权:

专利状态码:有效-授权

法律状态:2024.04.16#授权;2021.11.19#实质审查的生效;2021.11.02#公开

摘要:本发明涉及一种可定制的低延时命令词识别方法及装置,包括获取待识别语音,并根据待识别语音确定待处理的声学特征;将声学特征输入到预构建的神经网络分类模型中进行识别,获取声学特征所属的每个建模单元的后验概率;其中,建模单元为带调拼音;根据后验概率计算每个命令词的置信度以及其包含的建模单元出现的时间点;根据置信度和时间点来判断是否输出该命令词。本发明能够对汉语中所有的带调拼音进行建模,采用简单高效的打分机制,完成低延时命令词列表的识别任务,降低了命令词识别的开发成本和时间成本。本发明采用的置信度计算方法具有极低的计算复杂度和空间复杂度,并具有较高的准确率和较低的误唤醒率,可实时地检测命令词是否出现。

主权项:1.一种可定制的低延时命令词识别方法,其特征在于,包括:获取待识别语音,并根据所述待识别语音确定待处理的声学特征;将所述声学特征输入到预构建的神经网络分类模型中进行识别,获取所述声学特征所属的每个建模单元的后验概率;其中,所述建模单元为带调拼音,包括声母、韵母和声调;根据所述后验概率计算每个命令词对应的置信度以及其包含的建模单元出现的时间点;根据所述置信度和时间点判断是否输出该命令词;还包括:构建神经网络分类模型,所述构建神经网络分类模型,包括:从训练语音库中获取语音数据,对所述语音数据标注对应的建模单元;获取所述语音数据对应的声学特征;将所述语音数据对应的声学特征输入到神经网络进行训练,获取所述语音数据对应的声学特征所属的每个建模单元的后验概率;基于所述语音数据对应的声学特征所属的每个建模单元的后验概率采用时序分类损失函数对所述语音数据对应的声学特征迭代训练,生成神经网络分类模型;所述根据所述后验概率计算每个命令词对应的置信度采用的计算公式为: 其中,pik表示时间点k时,第i个建模单元对应的后验概率;hmax=t-window_size表示命令词检测的开始点;window_size表示命令词检测的时间窗口,取命令词的平均时长;ti表示在命令词检测时间窗口中第i个建模单元对应的后验概率最大的时间点;ft表示置信度;n表示命令词包括建模单元的个数;所述神经网络分类模型为深度前馈序列记忆神经网络。

全文数据:

权利要求:

百度查询: 普强时代(珠海横琴)信息技术有限公司 可定制的低延时命令词识别方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。