买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】基于多模态信息的表演系电影教育视频理解方法和系统_武汉大学_202311674762.5 

申请/专利权人:武汉大学

申请日:2023-12-06

公开(公告)日:2024-03-15

公开(公告)号:CN117708287A

主分类号:G06F16/332

分类号:G06F16/332;G06F16/36;G06V40/16;G06V10/764;G06N3/0464;G06N3/08;G06Q50/20

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.04.02#实质审查的生效;2024.03.15#公开

摘要:本发明提供了一种基于多模态信息的表演系电影教育视频理解方法和系统,包括问题生成和问题回答两个关键部分。首先,本发明通过语音识别技术,将电影中的台词文本提取出来,并将其用于问题生成。问题生成部分通过自动语音识别技术识别视频中的字幕,并使用在问题‑回答文本语料库上进行预训练的语言模型生成问题和相应的答案列表。此外,引入了大型语言模型来对获得的字幕进行浓缩,生成精炼的摘要,以供问题生成和答案提取使用。其次,本发明还能对用户提出的问题或现存的问题进行回答,系统本身对电影视频的深度理解是问题回答的关键。本发明为表演系学生提供了更多的资源和工具,以提高他们对电影的理解和表演技巧。

主权项:1.基于多模态信息的表演系电影教育视频理解方法,其特征在于,包含以下步骤:步骤S1,数据预处理阶段,具体实现方式如下:准备人脸库和地点库,将电影中的台词转录为文本信息,并对电影场景基于镜头的切换分割为若干个切片,提取切片的文本特征、视觉特征、人物-人物对特征和人物-地点对特征,对同一场景的不同切片提取的上述特征进行拼接,采取平均池化的方法得到场景级别的特征向量,利用神经网络对电影人物与人物之间,人物与地点之间关系进行预测,将预测结果导入数据库,生成一部电影的知识图谱,知识图谱将用于后续的深度理解即问题回答阶段,其中知识图谱的节点是电影中的实体人物,地点,关系边是预测的电影人物与人物之间,人物与地点之间关系;步骤S2,电影问题生成阶段,具体包括如下子步骤:步骤S21,获取电影字幕,并将字幕与提取的视频切片v对齐,确保视频内容与文本信息的一致性;步骤S22,并对电影字幕进行浓缩,并从浓缩的字幕中抽取一组潜在答案;步骤S23,对于每一个提取的答案a,使用T5-base模型来生成相应的问题q;步骤S25,将生成的问题与对应的视频切片和答案整合为视频-问题-答案三元组v,q,a,用于对学生进行提问;步骤S3,深度理解即问题回答阶段,包括如下子步骤:步骤S31,将学生提出的影片相关问题转化为数据库查询语句,即对步骤S1生成的知识图谱进行查询,通过检索所生成知识图谱的数据库以回答问题,得到相关的检索信息;步骤S32,根据检索到的信息生成答案,通过大语言模型对知识图谱查询到的明显错误的答案进行过滤;步骤S33,将生成的答案返回给学生,根据问题的回答向学生提供有关电影内容的深入理解。

全文数据:

权利要求:

百度查询: 武汉大学 基于多模态信息的表演系电影教育视频理解方法和系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。