买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】视频字幕合成方法、装置、存储介质及电子设备_深圳市欢太科技有限公司;OPPO广东移动通信有限公司_201980076343.7 

申请/专利权人:深圳市欢太科技有限公司;OPPO广东移动通信有限公司

申请日:2019-01-29

公开(公告)日:2024-04-05

公开(公告)号:CN113056908B

主分类号:H04N5/278

分类号:H04N5/278;G10L17/04;G10L17/18

优先权:

专利状态码:有效-授权

法律状态:2024.04.05#授权;2021.07.16#实质审查的生效;2021.06.29#公开

摘要:本申请公开了一种视频字幕合成方法、装置、存储介质及电子设备,包括:获取视频当中的语音信息,根据语音信息的特征得到待识别语音,将待识别语音输入至d‑vector声纹识别模型,以得到待识别语音所对应的声纹标识,声纹标识包含d‑vector特征,对待识别语音进行语音识别以得到对应的文本信息,将声纹标识和文本信息进行合成,以生成待识别语音的字幕。

主权项:1.一种视频字幕合成方法,应用于电子设备,其中,所述方法包括:获取视频当中的语音信息,根据所述语音信息的特征得到待识别语音,包括:通过语音信息中说话人说话的频率、性别、年龄、音色及语速,判断所述语音信息是否符合预设语音信息条件;若是,则确认所述语音信息对应目标对象,提取所述目标对象的待识别语音;将所述待识别语音输入至d-vector声纹识别模型,以得到所述待识别语音所对应的声纹标识,所述声纹标识包含d-vector特征,包括:输入目标对象的语音的梅尔频率倒谱系数,计算类内方差矩阵W: 其中,S代表目标对象,是指说话人个数,是目标对象的语音的梅尔频率倒谱系数输入至d-vector声纹识别模型得到的d-vector特征,即说话人s的第i个音频的d-vector,使用Cholesky分解计算WCCN矩阵B1,公式如下: 其中,B1是对W进行Cholesky分解后的解;是指说话人s的所有音频的d-vector的均值;T是指矩阵的转置;ns是指说话人s的音频数;经过WCCN信道补偿后的d-vectorVWCCN为:其中,V是指说话人s的d-vector;对所述待识别语音进行语音识别以得到对应的文本信息;将所述声纹标识和文本信息进行合成,以生成所述待识别语音的字幕。

全文数据:

权利要求:

百度查询: 深圳市欢太科技有限公司;OPPO广东移动通信有限公司 视频字幕合成方法、装置、存储介质及电子设备

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。