买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于语音理解的短视频自动生成字幕的方法及系统_北京华星酷娱文化传媒有限公司_202311254680.5 

申请/专利权人:北京华星酷娱文化传媒有限公司

申请日:2023-09-27

公开(公告)日:2024-04-09

公开(公告)号:CN117219067B

主分类号:G10L15/18

分类号:G10L15/18;G10L15/26;G10L17/04

优先权:

专利状态码:有效-授权

法律状态:2024.04.09#授权;2023.12.29#实质审查的生效;2023.12.12#公开

摘要:本发明公开了一种基于语音理解的短视频自动生成字幕的方法及系统,用于自然语言处理领域,该方法包括以下步骤:收集短视频的语音数据样本和文本数据;构建语音识别模型,同时依据文本数据构建语言理解模型;通过改进Bagging算法构建端到端语音理解模型;结合阈值法和视频信息的端点检测算法,提取出音频数据;将提取的音频数据输入端到端语音理解模型,生成对应的文本语义信息;将文本语义信息与视频时序信息相结合,自动渲染生成字幕;提供交互接口,对语音识别的错误结果进行校正。本发明共享语义表示,两任务互促进,语音编码器提取的语义特征可同时服务于语音识别和语言理解任务,两任务在统一模型中进行联合优化。

主权项:1.一种基于语音理解的短视频自动生成字幕的方法,其特征在于,该短视频自动生成字幕的方法包括以下步骤:S1、收集短视频的语音数据样本和文本数据;S2、依据语音数据样本,构建语音识别模型,同时依据文本数据构建语言理解模型;S3、通过改进Bagging算法,将语音识别模型与语言理解模型融为一体,并构建端到端语音理解模型;S4、结合阈值法和视频信息的端点检测算法,对短视频中的语音进行端点检测与精确定位,提取出音频数据;S5、将提取的音频数据输入端到端语音理解模型,生成对应的文本语义信息;S6、将文本语义信息与视频时序信息相结合,自动渲染生成字幕,并提供字幕的可视化展示界面;S7、提供交互接口,同时收集用户反馈,对语音识别的错误结果进行校正;所述通过改进Bagging算法,将语音识别模型与语言理解模型融为一体,并构建端到端语音理解模型包括以下步骤:S31、对语音数据进行特征提取,获取语音特征矩阵;S32、对文本数据进行词汇编码,获取文本特征矩阵;S33、基于语音特征矩阵和文本特征矩阵,使用灰色关联投影法计算语音特征和文本特征之间的关联度,选择关联度最高的语音样本与文本样本对作为训练样本;S34、使用Botstrap算法对训练样本进行抽样,生成子集,并利用子集训练基学习器;S35、在子集上训练连接了语音编码器和文本解码器的端到端语音理解模型,获得训练好的基学习器;S35、对新输入的语音样本,利用训练好的基学习器进行语音理解,并通过模型融合获得最终理解结果;所述基于语音特征矩阵和文本特征矩阵,使用灰色关联投影法计算语音特征和文本特征之间的关联度,选择关联度最高的语音样本与文本样本对作为训练样本包括以下步骤:S331、计算语音特征矩阵和文本特征矩阵之间的关联度,获得关联度矩阵;S332、对新输入的语音特征向量,计算语音特征向量与语音特征矩阵中各语音特征向量的关联度,获得关联度向量;S333、通过关联度向量在文本特征矩阵中的投影,获得语音特征向量与各文本特征的关联度;S334、选择与语音特征向量关联度最高的文本特征向量作为训练样本;S335、重复步骤S331至S334的步骤,获取全部的语音与文本训练样本对;S336、使用语音与文本训练样本对训练端到端语音理解模型。

全文数据:

权利要求:

百度查询: 北京华星酷娱文化传媒有限公司 一种基于语音理解的短视频自动生成字幕的方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。