申请/专利权人:武汉大学
申请日:2023-09-05
公开(公告)日:2023-12-29
公开(公告)号:CN117315774A
主分类号:G06V40/20
分类号:G06V40/20;G06V20/40;G06V10/82;G06N3/045;G06N3/08;G06V10/764;G06V10/20;G06V10/776;G06V10/774
优先权:
专利状态码:在审-实质审查的生效
法律状态:2024.01.16#实质审查的生效;2023.12.29#公开
摘要:本发明提供了一种面向黑暗场景的端到端多任务动作识别方法及系统,包括选择实时黑暗场景下摄像头拍摄得到的视频识别或已有黑暗视频片段识别;对视频数据进行预处理然后进行数据集标注与划分;改进VideoSwinTransformer模型,进行训练得到网络权重,形成黑暗场景下识别用的动作识别模型,并对动作识别模型进行轻量化处理;将新的黑暗场景下动作视频作为训练好的动作识别模型测试样本,输出增强后的视频和各个视频的动作类别评分;对输出结果进行分析,通过各个类别评分判断视频动作所属的一个获多个动作类别。本发明解决了由于黑暗视频帧亮度增强过程独立于动作识别过程导致低照度条件下动作识别准确度低的问题。
主权项:1.一种面向黑暗场景的端到端多任务动作识别方法,其特征在于:包括以下处理,选择实时黑暗场景下摄像头拍摄得到的视频识别或已有黑暗视频片段识别;对视频数据进行预处理,包括从高像素长视频中截取出小段短视频,处理成为视频帧,并对视频帧图像进行裁剪、缩放及归一化操作;然后进行数据集标注与划分;改进VideoSwinTransformer模型,以建立动作识别模型,实现方式为,与VideoSwinTransformer中的基本网络SwinTransformer-base替换为SwinTransformer-Large,以在SwinTransformer-base的基础上增加网络的宽度和深度;将Transformer视频增强子网络与VideoSwinTransformer网络级联,且Transformer视频增强子网络在前,VideoSwinTransformer在后;将Transformer视频增强子网络的输出头保留,用于训练优化增强子网络,以提高增强视觉质量;将训练样本作为输入对改进的VideoSwinTransformer模型进行训练,得到网络权重,形成黑暗场景下识别用的动作识别模型,并对动作识别模型进行轻量化处理;将新的黑暗场景下动作视频作为训练好的动作识别模型测试样本,输出增强后的视频和各个视频的动作类别评分;对输出结果进行分析,通过各个类别评分判断视频动作所属的一个获多个动作类别。
全文数据:
权利要求:
百度查询: 武汉大学 一种面向黑暗场景的端到端多任务动作识别方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。