【发明授权】视频字幕合成方法、装置、存储介质及电子设备_深圳市欢太科技有限公司;OPPO广东移动通信有限公司_201980076343.7

申请/专利权人：深圳市欢太科技有限公司;OPPO广东移动通信有限公司

申请日：2019-01-29

公开（公告）日：2024-04-05

公开（公告）号：CN113056908B

主分类号：H04N5/278

分类号：H04N5/278;G10L17/04;G10L17/18

优先权：

专利状态码：有效-授权

法律状态：2024.04.05#授权;2021.07.16#实质审查的生效;2021.06.29#公开

摘要：本申请公开了一种视频字幕合成方法、装置、存储介质及电子设备，包括：获取视频当中的语音信息，根据语音信息的特征得到待识别语音，将待识别语音输入至d‑vector声纹识别模型，以得到待识别语音所对应的声纹标识，声纹标识包含d‑vector特征，对待识别语音进行语音识别以得到对应的文本信息，将声纹标识和文本信息进行合成，以生成待识别语音的字幕。

主权项：1.一种视频字幕合成方法，应用于电子设备，其中，所述方法包括：获取视频当中的语音信息，根据所述语音信息的特征得到待识别语音，包括：通过语音信息中说话人说话的频率、性别、年龄、音色及语速，判断所述语音信息是否符合预设语音信息条件；若是，则确认所述语音信息对应目标对象，提取所述目标对象的待识别语音；将所述待识别语音输入至d-vector声纹识别模型，以得到所述待识别语音所对应的声纹标识，所述声纹标识包含d-vector特征，包括：输入目标对象的语音的梅尔频率倒谱系数，计算类内方差矩阵W：其中，S代表目标对象，是指说话人个数，是目标对象的语音的梅尔频率倒谱系数输入至d-vector声纹识别模型得到的d-vector特征，即说话人s的第i个音频的d-vector，使用Cholesky分解计算WCCN矩阵B1，公式如下：其中，B1是对W进行Cholesky分解后的解；是指说话人s的所有音频的d-vector的均值；T是指矩阵的转置；ns是指说话人s的音频数；经过WCCN信道补偿后的d-vectorVWCCN为：其中，V是指说话人s的d-vector；对所述待识别语音进行语音识别以得到对应的文本信息；将所述声纹标识和文本信息进行合成，以生成所述待识别语音的字幕。

全文数据：

权利要求：

百度查询：深圳市欢太科技有限公司;OPPO广东移动通信有限公司视频字幕合成方法、装置、存储介质及电子设备

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种防堵污水管道_浩卓泵业(杭州)有限公司_202322092893.4

下一篇：一种装配式桥梁用避震结构_浙江天晟建材股份有限公司_202322593564.8

相关技术

一种防堵污水管道_浩卓泵业(杭州)有限公司_202322092893.4

一种装配式桥梁用避震结构_浙江天晟建材股份有限公司_202322593564.8

一种轴承游隙检测装置_无锡凌拓智能装备有限公司_202322468779.7

双组份胶水即停防干装置_重庆金芯麦斯传感器技术有限公司_202322250925.9

整形压块及焊接装置_宁德时代新能源科技股份有限公司_202321970130.9

一种钢带波纹螺旋管接头防护模具_吉林建工集团有限公司_202322063597.1

一种高效散热电源_广州市力为电子有限公司_202322175013.X

一种大米加工砂辊碾米机_湖北九龙湖米业有限公司_202322482168.8

一种盒式包装机输送机构_安徽从仁堂生物科技有限公司_202322459283.3

摄像头安装组件和应用其的仪表屏_深圳市航盛电子股份有限公司_202322569773.9

一种煤矿井下局部通风机远程开停装置_贵州贵能投资股份有限公司_202322392209.4

一种印刷电路板加工用压膜装置_南通欧贝达电子科技有限公司_202322176231.5

龙图腾网&IPTOP

【发明授权】视频字幕合成方法、装置、存储介质及电子设备_深圳市欢太科技有限公司;OPPO广东移动通信有限公司_201980076343.7

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务