申请/专利权人:北京嘀嘀无限科技发展有限公司
申请日:2019-02-25
公开(公告)日:2024-04-23
公开(公告)号:CN111611825B
主分类号:G06V40/20
分类号:G06V40/20;G06V40/16;G06V10/40
优先权:
专利状态码:有效-授权
法律状态:2024.04.23#授权;2020.09.25#实质审查的生效;2020.09.01#公开
摘要:本申请实施例供了一种唇语内容识别方法及装置,本申请实施例不是对整张面部图像进行数据处理,而是对整张面部图像中的唇部动作图像进行数据分析和处理,有效降低了唇语识别中需要处理的数据量,提高了唇语识别的效率。同时,上述技术方案结合唇部动作图像中的有效时空特征数据和音频信息中的有效音频特征数据进行唇语识别,能够得到准确度更高的唇语内容,提高了唇语识别的精确度。
主权项:1.一种唇语内容识别方法,其特征在于,包括:获取多张唇部动作图像以及与各唇部动作图像对应的音频信息;针对每张唇部动作图像,基于该唇部动作图像中的时空特征数据的位置,将所述时空特征数据划分为多个第一数组,并确定每个第一数组对应的有效时空特征数据,根据时间关系,将该唇部动作图像对应的音频信息划分为多个第二数组,并确定每个第二数组对应的有效音频特征数据,所述多个第一数组是按照时空特征数据的位置进行排序的,所述多个第二数组是按照时间关系进行排序的;针对每张唇部动作图像下的每个第一数组,将该第一数组对应的有效时空特征数据,和与该第一数组具有相同的排序次序的第二数组对应的有效音频特征数据进行级联,得到该第一数组对应的级联特征数据;针对每张唇部动作图像,基于该唇部动作图像对应的所有第一数组对应的级联特征数据,确定该唇部动作图像对应的有效特征数据;基于所有唇部动作图像对应的有效特征数据,生成所述多张唇部动作图像对应的唇语内容。
全文数据:
权利要求:
百度查询: 北京嘀嘀无限科技发展有限公司 一种唇语内容识别方法及装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。