【发明授权】基于语义指导的视频行为检测方法_北京工业大学_202111669113.7

导航：龙图腾网> 最新专利技术> 基于语义指导的视频行为检测方法_北京工业大学_202111669113.7

申请/专利权人：北京工业大学

申请日：2021-12-31

公开（公告）日：2024-03-22

公开（公告）号：CN114332723B

主分类号：G06V20/40

分类号：G06V20/40;G06V10/82;G06N3/0464;G06N3/084;G06V40/20

优先权：

专利状态码：有效-授权

法律状态：2024.03.22#授权;2022.04.29#实质审查的生效;2022.04.12#公开

摘要：本发明公开了基于语义指导的视频行为检测方法，通过特征的下采样来扩大时间感受野，并将线性插值用于上采样环节，从而得到视频时序上的粗略语义信息，用于指导时间卷积模型的输出；同时对模型的主干网络使用参数共享结构，将网络分为了三部分：生成粗略预测、细化和最终预测，以实现网络层数与参数量的最佳搭配；针对模型的时间建模能力，本发明提供了一种不需人工标注的视频速度预测的自监督辅助任务，可通过随机采样率的变换来模拟视频的播放速度，以辅助主干网络生成质量更高的预测。本发明主要针对以人为主体的视频，具有参数量低、精度高，方便对长视频进行操作等特点；对于无人的视频，本发明根据转场对视频进行分割。

主权项：1.基于语义指导的视频行为检测方法，其特征在于，所述方法包括以下步骤：S1、在Kinetics-600数据集上对I3D模型进行训练；S2、使用在S1中训练好的I3D模型对Breakfast长视频数据集中的视频提取2048维的特征；S3、将S2中提取的视频特征集作为任务的训练集，并分别输入到第一个语义指导模块SG1和主干网络的“生成粗略预测”阶段中，并将它们的输出进行加和，得到第一阶段最终的输出O1；计算O1与Breakfast数据集中的人工注释标签GT所产生的交叉熵损失L1；同时生成随机速率P，对O1进行速率P的采样，并通过VGG16网络对该速率进行预测，产生交叉熵损失L1p；S4、将S3中得到的O1作为第二个语义指导模块SG2和“细化”阶段R1的输入，将SG2和R1的输出进行加和，得到输出O2；计算O2与GT所产生的交叉熵损失L2；同S3，将O2作为“视频速度预测”辅助任务的输入，产生交叉熵损失L2p；S5、将S4中得到的O2作为第二个语义指导模块SG3和“细化”阶段R2的输入，将SG3和R2的输出进行加和，得到输出O3；计算O3与GT所产生的交叉熵损失L3；并将O3作为“视频速度预测”辅助任务的输入，产生交叉熵损失L3p；S6、将S5中得到的O3作为“细化”阶段R3的输入，并得到“细化”阶段的输出O4；计算O4与GT所产生的交叉熵损失L4；并将O4作为“视频速度预测”辅助任务的输入，产生交叉熵损失L4p；S7、将S6中所得到O4作为“最终预测”阶段的输入，并得到模型最终的输出O；计算O与GT所产生的交叉熵损失L5；并将O作为“视频速度预测”辅助任务的输入，产生交叉熵损失L5p；S8、计算模型总体的损失L＝ΣLi+ΣLip，并进行反向传播，优化模型参数，直至损失收敛，训练结束；Li为L1-L5；Lip为L1p-L5p。

全文数据：

权利要求：

百度查询：北京工业大学基于语义指导的视频行为检测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

相关技术

相关技术

相关技术

相关技术

龙图腾网&IPTOP

【发明授权】基于语义指导的视频行为检测方法_北京工业大学_202111669113.7

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务