买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于松弛变换解码器的直接时序动作检测方法_南京大学_202110115997.5 

申请/专利权人:南京大学

申请日:2021-01-28

公开(公告)日:2024-03-22

公开(公告)号:CN114821379B

主分类号:G06V20/40

分类号:G06V20/40;G06V10/764;G06V10/82;G06N3/006;G06N3/0455;G06N3/0499;G06N3/084;G06T3/4038;G06T7/246;G06T7/269;G06T9/00;H04N19/42;H04N19/44;H04N19/60

优先权:

专利状态码:有效-授权

法律状态:2024.03.22#授权;2022.08.16#实质审查的生效;2022.07.29#公开

摘要:一种基于松弛变换解码器的直接时序动作检测方法,包括生成训练样例阶段、网络配置阶段、训练阶段以及测试阶段,结合动作起始点和结束点的概率以实现边界增强,并通过注意力机制自适应调整特征,实现时序动作检测。本发明通过边界增强的特征表示,有效利用全局上下文信息,显著提高生成提名的鲁棒性;利用松弛匹配的策略使网络快速稳定收敛;引入了时间交并比来指导动作提名排序,在有限的预测中,覆盖所有视频中的动作真值,灵活、高效、快速、准确的完成时序动作检测任务。

主权项:1.一种基于松弛变换解码器的直接时序动作检测方法,其特征是对视频数据结合动作起始点和结束点的概率以实现边界增强,并通过注意力机制自适应调整特征,实现时序动作检测,所述时序动作检测步骤包括生成训练特征阶段、网络配置阶段、训练阶段以及测试阶段:1生成训练特征阶段:使用基于ResNet-50的I3D网络对训练样例视频进行特征提取,对于每个视频,将视频图像序列Lf分为若干个长度为Ls帧的视频段,每段为由Ls帧图像组成图像序列Sf,将图像序列Sf送入I3D网络,经过预训练参数的卷积层和池化层,输出得到LD帧的双流特征,将不同视频段的双流特征按照时间顺序拼接起来,再经过一个池化层,得到整个视频D维的高维特征其中,视频段长度Ls的大小表示在全局上进行时间划分的细粒程度;2网络配置阶段:基于多层感知机编码器和变换解码器,建立时序动作检测模型RTD-Net,模型包括以下配置:2.1计算边界概率:首先使用时间分割网络TSN对步骤1得到的图像序列Sf处理得到时序双流特征,再送入由三个卷积层组成的边界概率预测模块,计算得到每个时间节点作为动作起始点和动作结束点的概率,得到边界概率序列;2.2获得边界增强特征:对于1中生成的高维特征和2.1中计算出的边界概率序列,进行点乘操作,获得边界增强特征Fb,再将边界增强特征Fb送入多层感知机编码器得到编码特征Fenc,实现通道上的交互;2.3解析边界增强特征:对于2.2中获得的边界增强特征的编码特征Fenc,利用变换解码器进行解析,变换解码器包含ND个解码层,每个解码层包含一个自注意力层、一个编码器-解码器注意力层和两个线性映射层,输入的特征依次经过自注意力层、编码器-解码器注意力层和堆叠的线性映射层后输出,边界增强特征通过堆叠的ND个解码层后,实现特征的解析;2.4时序动作提名的生成与评分:变换解码器输出的解析特征,送入三个不同的前馈神经网络:边界FFN、完整度FFN和分类FFN,三个前馈神经网络分别用于输出:动作提名的起始时刻和结束时刻、完整度分数以及置信度分数;2.5分配训练标签:采用松弛的训练标签匹配策略:首先,根据定义的匹配代价,匹配器利用匈牙利算法得到一组最优的one-to-one匹配,每个获得正标签的预测提名都能被分配到一个相应的实际提名,作为训练标签,其次,计算预测提名和实际提名的overlap,选取overlap大于Ot的预测提名,为其分配相应的实际提名作为标签;2.6时序动作提名的分类:生成一系列的时序提名后,通过以下两类方法进行提名分类:第一种是选取UntrimmedNet视频级别top1的分类得分,第二种是将提名送入P-GCN进行分类;3训练阶段:对配置的模型采用训练数据进行训练,使用交叉熵、L1距离、交并比作为损失函数,使用AdamW优化器,使用退火策略通过反向传播算法来更新网络参数,不断重复步骤1和步骤2,直至达到迭代次数;4测试阶段:将待测试数据的视频特征序列输入到训练完成的RTD-Net模型中,生成动作提名,再利用2.6中的两种方式,得到提名分类结果,实现时序动作检测。

全文数据:

权利要求:

百度查询: 南京大学 一种基于松弛变换解码器的直接时序动作检测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。