Deep Video Inpainting Localization Using Spatial and Temporal Traces

type

status

date

slug

summary

一. 重要概念

本文使用到的光流对齐，指的是将上一帧的运动信息与相邻帧做位置匹配，即运动物体在帧中的相对位置保持不变。

光流对齐在视频inpainting还有另一种含义，指的是当前帧借助光流信息采取warp操作去预测下一帧。而在多模态中的对齐指的是两种模态之间的相关程度。

Transpose conv：转置卷积/反卷积。一种通过填充零，再卷积，从而得到更大尺度的图像的操作。

二. 创新点

引入帧间残差（借助光流对齐）和帧内残差构成双流网络，接着与双向卷积LSTM相结合（方法创新）

三. 整体框架

该模型的整体框架为“Encoder-Decoder”，其中Encoder是一个双流的结构，输入为视频帧，经过处理得到两个残差信息，即帧内残差和帧间残差的特征，将双流的特征concat到一起后再送入Decoder中，最后得到定位的mask序列。

1. Intra-frame residual & Inter-frame residual

金句：As the contents within the inpainted regions are inferred from the known pixels in the same frame or propagated from neighboring frames, certain spatial and temporal traces would be inevitably left. However, such traces are much weaker compared to the video contents.

对于帧内残差Intra-frame residual，使用一阶可导高通滤波器，将当前像素信息与相邻像素从水平、垂直、主对角线三个方向做差，从而压缩视频帧的信息和提取出残差。

对于帧间残差Inter-frame residual，提取过程分为两步：首先使用光流去对齐运动的视频内容，从而保持运动信息的相对位置是一致的，然后再将当前帧与前后两帧分别做差，得到。

2. Dual-stream encoder network

提取完Intra-frame residual & Inter-frame residual后不是直接concat，而是分别经过Resnet网络将特征维度加深到128维，其中，每个Resnet模块包含两个bottleneck unit。随后将两个128维的残差特征concat，再送进两个Resnet模块，最后输出1024维度、尺寸大小为原尺寸的1/16的特征。

bottleneck unit是一种特殊的残差结构,主要用于减少网络参数量和提高网络深度。它的核心思想是先通过1x1卷积层将输入通道数降低(即"瓶颈"),然后再通过3x3卷积层进行特征提取,最后再通过1x1卷积层将通道数升高到与输入相同。这样的结构可以在不增加参数量的情况下增加网络深度,从而提高模型性能

3. Decoder network

在Decoder模块，如果直接使用Transpose conv进行上采样，那么就无法充分利用到特征中的时间维度的信息，因此在Transpose conv之前使用双向的卷积LSTM模块，而Transpose conv是4×的上采样，通过两次上采样即可恢复视频帧的原尺寸。最后通过5×5的卷积消除Transpose conv带来的棋盘效应并且输出通道数为2的mask序列，然后使用softmax对视频帧进行分类和获得定位结果。

棋盘效应：由于反卷积的“不均匀重叠”（Uneven overlap）的结果。使图像中某个部位的颜色比其他部位更深
具体原因：在反卷积操作时，如果卷积核（Kernel）大小不能被步长（Stride）整除时，反卷积输出的结果就会不均匀重叠：

4. Loss function

dice loss，与F1 score是挂钩的

四. 评估指标

F1 score