【发明授权】一种基于语音理解的短视频自动生成字幕的方法及系统_北京华星酷娱文化传媒有限公司_202311254680.5

申请/专利权人：北京华星酷娱文化传媒有限公司

申请日：2023-09-27

公开（公告）日：2024-04-09

公开（公告）号：CN117219067B

主分类号：G10L15/18

分类号：G10L15/18;G10L15/26;G10L17/04

优先权：

专利状态码：有效-授权

法律状态：2024.04.09#授权;2023.12.29#实质审查的生效;2023.12.12#公开

摘要：本发明公开了一种基于语音理解的短视频自动生成字幕的方法及系统，用于自然语言处理领域，该方法包括以下步骤：收集短视频的语音数据样本和文本数据；构建语音识别模型，同时依据文本数据构建语言理解模型；通过改进Bagging算法构建端到端语音理解模型；结合阈值法和视频信息的端点检测算法，提取出音频数据；将提取的音频数据输入端到端语音理解模型，生成对应的文本语义信息；将文本语义信息与视频时序信息相结合，自动渲染生成字幕；提供交互接口，对语音识别的错误结果进行校正。本发明共享语义表示，两任务互促进，语音编码器提取的语义特征可同时服务于语音识别和语言理解任务，两任务在统一模型中进行联合优化。

主权项：1.一种基于语音理解的短视频自动生成字幕的方法，其特征在于，该短视频自动生成字幕的方法包括以下步骤：S1、收集短视频的语音数据样本和文本数据；S2、依据语音数据样本，构建语音识别模型，同时依据文本数据构建语言理解模型；S3、通过改进Bagging算法，将语音识别模型与语言理解模型融为一体，并构建端到端语音理解模型；S4、结合阈值法和视频信息的端点检测算法，对短视频中的语音进行端点检测与精确定位，提取出音频数据；S5、将提取的音频数据输入端到端语音理解模型，生成对应的文本语义信息；S6、将文本语义信息与视频时序信息相结合，自动渲染生成字幕，并提供字幕的可视化展示界面；S7、提供交互接口，同时收集用户反馈，对语音识别的错误结果进行校正；所述通过改进Bagging算法，将语音识别模型与语言理解模型融为一体，并构建端到端语音理解模型包括以下步骤：S31、对语音数据进行特征提取，获取语音特征矩阵；S32、对文本数据进行词汇编码，获取文本特征矩阵；S33、基于语音特征矩阵和文本特征矩阵，使用灰色关联投影法计算语音特征和文本特征之间的关联度，选择关联度最高的语音样本与文本样本对作为训练样本；S34、使用Botstrap算法对训练样本进行抽样，生成子集，并利用子集训练基学习器；S35、在子集上训练连接了语音编码器和文本解码器的端到端语音理解模型，获得训练好的基学习器；S35、对新输入的语音样本，利用训练好的基学习器进行语音理解，并通过模型融合获得最终理解结果；所述基于语音特征矩阵和文本特征矩阵，使用灰色关联投影法计算语音特征和文本特征之间的关联度，选择关联度最高的语音样本与文本样本对作为训练样本包括以下步骤：S331、计算语音特征矩阵和文本特征矩阵之间的关联度，获得关联度矩阵；S332、对新输入的语音特征向量，计算语音特征向量与语音特征矩阵中各语音特征向量的关联度，获得关联度向量；S333、通过关联度向量在文本特征矩阵中的投影，获得语音特征向量与各文本特征的关联度；S334、选择与语音特征向量关联度最高的文本特征向量作为训练样本；S335、重复步骤S331至S334的步骤，获取全部的语音与文本训练样本对；S336、使用语音与文本训练样本对训练端到端语音理解模型。

全文数据：

权利要求：

百度查询：北京华星酷娱文化传媒有限公司一种基于语音理解的短视频自动生成字幕的方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种超低能耗制备电解液及硫酸氧钒晶体的系统_广东中科天钒储能科技有限公司_202322441183.8

下一篇：一种钝化复合功能层和TOPCon电池_中环新能(安徽)先进电池制造有限公司_202322011797.2

相关技术

一种超低能耗制备电解液及硫酸氧钒晶体的系统_广东中科天钒储能科技有限公司_202322441183.8

一种钝化复合功能层和TOPCon电池_中环新能(安徽)先进电池制造有限公司_202322011797.2

一种大米加工砂辊碾米机_湖北九龙湖米业有限公司_202322482168.8

一种保温箱排水结构_苏州苏味轩食品有限公司_202322479258.1

一种用于土地规划用测量装置_西安市城市发展资源信息有限公司_202322290527.X

一种组合式高低压配电柜_靖江市靖开电力电器有限公司_202322564432.2

一种液压锁密闭性测试装置_靖江市长源液压机械有限公司_202322518953.4

键合劈刀_有研(广东)新材料技术研究院_202322391831.3

一种吸尘器高密封过滤网_苏州佳奇克电子有限公司_202322293337.3

CNC加工用快速换线治具_东莞华清光学科技有限公司_202322418777.7

夹具_新疆蓝晶新材料科技有限公司_202322100063.1

一种旋转式防撞护栏和混凝土护栏的过渡连接结构_浙江飞虹交通设施有限公司_202322419697.3

自动相关技术

自动并线机_无锡星陵威科技有限公司_201810119180.3

自动定心夹具_攀枝花学院_202322704858.3

自动脱模注塑装置_唐山铮诚塑业有限公司_202321922113.8

自动清洁涂装机_佛山星铭达自动化设备有限公司_202322558790.2

自动上下料车_加西亚电子电器股份有限公司_202010419915.1

鸡舍自动投喂粮仓_华南师范大学_202322702234.8

全自动多功能烫画机_缙云县盛达缝制设备有限公司_202322206454.1

线材自动封装装置_鸿硕精密电工(湖北)有限公司_202322324101.1

料盒自动化输送装置及料盒自动化输送系统_广汽乘用车(杭州)有限公司_202322231946.6

基于伺服驱动的全自动弯管机_张家港市立业机械有限公司_201710878402.5

生成相关技术

气溶胶生成装置及气溶胶生成系统_深圳市合元科技有限公司_202322425016.4

基于生成对抗网络的人偶模特生成算法_哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)_202311484349.2

骨架动作图生成方法、生成装置、计算机设备及介质_深兰科技(上海)有限公司_202110895154.1

生成参数化空间音频表示_诺基亚技术有限公司_202311364414.8

生成参数化空间音频表示_诺基亚技术有限公司_202311364503.2

气溶胶生成装置及其制造方法_韩国烟草人参公社_202080005689.0

报表生成方法及装置_中盈优创资讯科技有限公司_201911043076.1

一种多功能便携式氢气生成装置及一种氢气生成方法_深圳市珐彩科技有限公司_202010330550.5

生成情绪组合内容的方法及装置_三星电子株式会社_202280057521.3

详单生成的方法、装置及计算设备_中国移动通信集团安徽有限公司_202010015473.4

视频相关技术

数字人视频显示方法及设备_卓世未来(成都)科技有限公司_202410164673.4

视频处理方法、装置及设备_北京字节跳动网络技术有限公司_202110407802.4

用于视频译码的双向预测_VID拓展公司_201980063042.0

视频问答方法及电子设备_华为技术有限公司_202211289300.7

一种道路交通用视频监控装置_中国市政工程中南设计研究总院有限公司_202322498762.6

一种视频设备简化配置方法及系统_天翼物联科技有限公司_202111654279.1

基于RGB视频的物体重建方法和装置_清华大学_202110832398.5

基于过滤机制的视频解码方法_天津津航计算技术研究所_202110826187.0

一种软硬结合的视频解码方法_天津津航计算技术研究所_202110699068.3

视频播放方法、可读介质和电子设备_荣耀终端有限公司_202311046469.4

龙图腾网&IPTOP

【发明授权】一种基于语音理解的短视频自动生成字幕的方法及系统_北京华星酷娱文化传媒有限公司_202311254680.5

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务