type
status
date
slug
summary
tags
category
icon
password
论文题目:Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset
发表于CVPR 2017
意义:继双流网络在视频理解领域之后的又一篇力作。

目录:

  1. 引言
  1. 相关工作
  1. I3D模型思想
  1. 实现细节
  1. 实验结果
 

1.引言

这是继双流网络在视频理解领域之后的又一篇力作,主要贡献是提出一个很大的视频数据集 Kinetics Dataset 以及提出一个能够将2D的预训练好的图像卷积网络扩张成3D的网络模型。比如,直接使用设计好的VGG,Resnet来扩张成3D的用于处理视频的网络,这种做法不仅设计上简单,并且少去了很多模型设计带来的麻烦,像参数的选定、kernel size的大小、多少个residual block等等在处理图像的网络中发展的已经很成熟了,直接把这些经验使用到视频领域是比较方便的。
 
在这之前,模型在大数据集上预训练后在应用在小数据集上的方法在视频领域并不能被证实有效,原因在于没有一个大的视频数据集,因此作者做了一个视频数据集 Kinetics Dataset,这是一个包含30万个视频样本、类别均衡、难度适中的数据集,在后来得到了广泛的使用。I3D网络就是在Kinetics Dataset数据集上预训练,然后在UCF-101上直接跑分到了98,直接宣告了UCF-101数据集的终结与Kinetics Dataset数据集的崛起。除此之外,作者也提出视频模型最好是在视频的数据集上做训练(双流网络的空间流是在Imagenet上做预训练的)。
 

2.相关工作

由于作者提出的模型与之前提出的方法有很强的相关性,因此需要对之前的三种方法做详细的介绍,看他们是如何利用视频里持续的时序信息。
 
  • 在CNN之后结合一个LSTM网络的方法。
    • 由于LSTM网络是可以进行时序建模的,因此把每一帧图片都通过卷积网络进行特征提取,然后再送进LSTM网络,并且在最后一个时间戳上把提出的结果送到全连接层去做分类任务,如下图。
      notion image
      💡
      这个方法直观上是很可行的,但是在数据集上的表现并不出色,因此这个框架很快的被抛弃了。
       
  • 3D卷积神经网络。
    • notion image
       
       
  • 双流网络。
    • 基于双流网络有很多研究,从一开始的使用2D的卷积网络提取场景信息和光流信息的特征再使用late fusion(左图),到后来先2D再使用early fusion输入到3D卷积网络(中图),再到后来使用3D卷积提取场景信息和光流信息再做late fusion(右图,即作者的想法)。
使用late fusion进行融合
使用late fusion进行融合
使用early fusion进行融合,然后输进3D卷积
使用early fusion进行融合,然后输进3D卷积
双流3D,然后使用late fusion
双流3D,然后使用late fusion
 

3.I3D模型思想

我们知道3D的卷积神经网络已经可以学习视频中时序的信息了,但是作者这里仍然引入了光流层,因为他觉得光流让模型能够更好地理解时序信息。此外,这里地3D网络不是作者自己设计的,而是通过将前人设计好的2D卷积网络扩张成3D的卷积神经网络,自己从头设计一个3D的卷积网络需要做很多的实验来验证各种参数的有效性和最佳数值选择,因此将2D中设计好的、经过前人大量验证的2D模型扩张成3D是一个不错的想法。
💡
因此模型的结构就是:双流网络3D版
 

4.实现细节

  1. 将一个2D网络扩张到3D。
该方法简单直接,将2维的卷积kernel变成3维的,将2维的pooling层变成3维的,层与层之间的连接以及顺序都不做改变。
 
  1. 3D模型的参数初始化。
使用一个模型的预训练参数最直观的方法就是两个模型是一模一样的,虽然3D网络是从2D网络来的,但是参数的初始化问题是比较困难的。 这里作者的思路是:将一张图片复制n次变成一个只有单个画面的视频,并且将2D的卷积核在时间维度上复制2次,如果说一张图片进入2D网络后输出与该视频进入3D网络后输出一致,那么说明3D模型的参数初始化很成功。
 
  1. 在时间维度上尽量不去做下采样,比如说输入视频是64帧,那么输出也保持64帧。
模型结构图
模型结构图
视频的帧数本来就不多,所以也没必要去做下采样。
 
  1. 模型参数大小以及时序输入尺寸的比较:
notion image
I3D网络在参数大小上比较经济实惠。模型的测试结果要考虑到公平对比,所以在测试数据方面都是10秒左右的视频(3D-ConvNet 9.6秒因为除不尽),而在训练方面数据量不同很正常。
 

5.实验结果

  • 总之就是在UCF-101、HMDB-51还有Kinetics400三个数据集上是五个架构里面表现最好的,遥遥领先。
  • 说明了光流信息对模型理解视频内容确实是有帮助的。
该图比较了五个模型在3个不同的训练集的实验结果,并且分别测试了仅仅使用图像、仅仅使用光流图和图像+光流图的三种情况。
该图比较了五个模型在3个不同的训练集的实验结果,并且分别测试了仅仅使用图像、仅仅使用光流图和图像+光流图的三种情况。
  • 证明了Kinetics数据集做迁移学习的有效性,验证了视频领域做迁移学习是十分有效的。
  • 不用ImageNet做预训练初始化参数在结果上也是不错的。
  • 模型整体做微调效果更好。
该图为了验证Kinetics数据集做迁移学习的效果,其中original是训练和测试都是相同数据集,fixed是指冻结骨干网络的参数,full-ft指的是所有可训练的参数均作微调。/表示是否使用imagenet数据集做预训练初始化参数。
该图为了验证Kinetics数据集做迁移学习的效果,其中original是训练和测试都是相同数据集,fixed是指冻结骨干网络的参数,full-ft指的是所有可训练的参数均作微调。/表示是否使用imagenet数据集做预训练初始化参数。
  • I3D遥遥领先!纯3D卷积网络做视频分类任务狗都不用。
该图将I3D网络与之前的sota网络做一个对比,第一块是双流网络,第二块是3D卷积网络,第三块是I3D网络。
该图将I3D网络与之前的sota网络做一个对比,第一块是双流网络,第二块是3D卷积网络,第三块是I3D网络。
相关文章
ProPainter双流网络
Hidragon
Hidragon
我唯一知道的是我一无所知
公告
type
status
date
slug
summary
tags
category
icon
password
追风赶月莫停留,平芜尽处是春山