买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于语义指导的视频行为检测方法_北京工业大学_202111669113.7 

申请/专利权人:北京工业大学

申请日:2021-12-31

公开(公告)日:2024-03-22

公开(公告)号:CN114332723B

主分类号:G06V20/40

分类号:G06V20/40;G06V10/82;G06N3/0464;G06N3/084;G06V40/20

优先权:

专利状态码:有效-授权

法律状态:2024.03.22#授权;2022.04.29#实质审查的生效;2022.04.12#公开

摘要:本发明公开了基于语义指导的视频行为检测方法,通过特征的下采样来扩大时间感受野,并将线性插值用于上采样环节,从而得到视频时序上的粗略语义信息,用于指导时间卷积模型的输出;同时对模型的主干网络使用参数共享结构,将网络分为了三部分:生成粗略预测、细化和最终预测,以实现网络层数与参数量的最佳搭配;针对模型的时间建模能力,本发明提供了一种不需人工标注的视频速度预测的自监督辅助任务,可通过随机采样率的变换来模拟视频的播放速度,以辅助主干网络生成质量更高的预测。本发明主要针对以人为主体的视频,具有参数量低、精度高,方便对长视频进行操作等特点;对于无人的视频,本发明根据转场对视频进行分割。

主权项:1.基于语义指导的视频行为检测方法,其特征在于,所述方法包括以下步骤:S1、在Kinetics-600数据集上对I3D模型进行训练;S2、使用在S1中训练好的I3D模型对Breakfast长视频数据集中的视频提取2048维的特征;S3、将S2中提取的视频特征集作为任务的训练集,并分别输入到第一个语义指导模块SG1和主干网络的“生成粗略预测”阶段中,并将它们的输出进行加和,得到第一阶段最终的输出O1;计算O1与Breakfast数据集中的人工注释标签GT所产生的交叉熵损失L1;同时生成随机速率P,对O1进行速率P的采样,并通过VGG16网络对该速率进行预测,产生交叉熵损失L1p;S4、将S3中得到的O1作为第二个语义指导模块SG2和“细化”阶段R1的输入,将SG2和R1的输出进行加和,得到输出O2;计算O2与GT所产生的交叉熵损失L2;同S3,将O2作为“视频速度预测”辅助任务的输入,产生交叉熵损失L2p;S5、将S4中得到的O2作为第二个语义指导模块SG3和“细化”阶段R2的输入,将SG3和R2的输出进行加和,得到输出O3;计算O3与GT所产生的交叉熵损失L3;并将O3作为“视频速度预测”辅助任务的输入,产生交叉熵损失L3p;S6、将S5中得到的O3作为“细化”阶段R3的输入,并得到“细化”阶段的输出O4;计算O4与GT所产生的交叉熵损失L4;并将O4作为“视频速度预测”辅助任务的输入,产生交叉熵损失L4p;S7、将S6中所得到O4作为“最终预测”阶段的输入,并得到模型最终的输出O;计算O与GT所产生的交叉熵损失L5;并将O作为“视频速度预测”辅助任务的输入,产生交叉熵损失L5p;S8、计算模型总体的损失L=ΣLi+ΣLip,并进行反向传播,优化模型参数,直至损失收敛,训练结束;Li为L1-L5;Lip为L1p-L5p。

全文数据:

权利要求:

百度查询: 北京工业大学 基于语义指导的视频行为检测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术
相关技术