MumPy | zwz Blog

type

status

date

slug

summary

一. 重要概念

DCN：Deformable Convolution Network，具有可学习的偏置，将卷积核的固定采样加上学习到的偏置，使得卷积核能够根据图像的特定信息进行变形。最开始使用于目标检测领域，后来延伸到视频inpainting以及视频inpainting检测。

特征金字塔：在多尺度特征金字塔的基础上，多加一个特征融合（相加而非concat）操作

二. 创新点

Multilateral Temporal-view Encoder：提供多个时间视角，即给模型输入不同长短的视频帧，并利用Swin Transformer的Encoder block提取其中的特征

Deformable Window-based Temporal-view Interaction：通过 DCN 和 Cross-Attention （在小窗中计算）结合，将不同长度的视频特征进行融合（从短的往长的融合）

Multi-pyramid Decoder：设计了一个多特征金字塔Decoder，将三种信息的金字塔进行融合

三. 整体框架

首先，将视频分成长度为 t 、尺寸为 h×w 的小窗视频段，其中长度为 t 的小窗视频有个。需要说明的是，上述的分段视频仅仅是一个时长的，本论文将一个视频分成了不同时长的小窗视频 k 种（k个view），因此一个视频就有个小窗视频。

其次，将分好的小窗视频段进行token化并且输入到 Swin Transformer Encoder Block 中，根据是否添加新的 Transformer Encoder Block 来进入下一个stage。不同view的最后一个stage的特征还需要输入到另一个全局的Transformer Encoder，以便得到更高维度的时序信息。

不同 view 之间还需要进行交互，这里使用DCN和Cross-attention（局部window），将短的小窗视频向长的小窗视频融合（类似于正向Propagation）。随后，不同 view 中同一个 stage 的特征通过TFF模块融合，得到一个特征金字塔 Temporal-view Pyramid。

从视频中间取一帧进行DCT变换，过滤出低频、中频、高频的DCT图像并进行IDCT变换，随后得到多尺度特征金字塔 Frequency-assistance Pyramid。

现在，我们手上既有 Temporal-view Pyramid ，也有 Frequency-assistance Pyramid，还有第二步中得到的更高维度的信息，将这三者送进MFF模块中进行信息融合，最后输出预测mask。

Ⅰ. Multilateral Temporal-view Encoder

这一部分就是针对不同长度的小窗视频进行不同stage的特征提取，这里以一个长度为的小窗视频为例：

Tokenization：

首先经过一个3D 卷积，卷积核尺寸为，得到个token，表示为：，其中，0表示 Stage 1 的输入。

Encoder：

Encoder 由 window-based multihead self-attention 模块和 shifted window-based multihead self-attention 模块交替组成，从而将token输入到不同深度的 Encoder模块得到不同 Stage 的特征信息。

Global Encoder：

由于不同长度的小窗视频是不同的 view，而上述的 Encoder 只是针对特定长度的小窗视频进行特征提取，这仅仅在空间维度进行注意力计算，所以将上述 Encoder 得到的不同 view 的最后一层 stage 的特征送进一个全局的 Transformer Encoder 来计算全局的注意力信息，从而得到 时间+空间 的特征表示。

Ⅱ. Deformable Window-based Temporal-view Interaction

由于目前在每一个 view 中还没有信息交互，即不同长度的视频特征信息缺乏交互，因此需要通过一个模块来建立不同 view 之间的联系，这里作者提出 Deformable Window-based Temporal-view Interaction 模块。

Deformable Window-based Temporal-view Interaction 模块作用是正向的信息传播，即短的视频特征信息往长的视频特征信息传送，并且将 DCN 和 Cross-attention 思想结合。

看上图(b)，长的视频特征提供 Query 和 DCN 偏置，短的视频特征通过 DCN 模块得到 Key 和 Value，然后通过 Q K V 进行Cross-attention计算，从而实现不同长度的视频特征之间的交互。

需要注意的是，这里的Cross-attention计算并不是全局的，而是 Window-based 的。

Ⅲ. Multi-pyramid Decoder

Temporal-view Pyramid

不同 view 中同一个 stage 的特征通过TFF模块融合，TFF模块示意图如下所示：

由于不同长度的小窗视频各自的数量是不同的，因此选取最大的数量 v 作为参考，将数量少的视频个数扩充到 v ，然后在通道维度上进行concat，再 3D CNN、Group Normalization、ReLU激活三步走，得到一张特征图（此时数量全部被压缩）

Frequency-assistance Pyramid

从视频中间取一帧进行DCT变换，过滤出低频、中频、高频三种DCT图像并进行IDCT变换，这就得到了不同频率的图像信息，在通道上做concat，随后得到多尺度特征金字塔 Frequency-assistance Pyramid

Multi-source Feature Fusing Pyramid

现在我们手上既有来自 TFF 模块的 Temporal-view Pyramid ，也有来自频率的 Frequency-assistance Pyramid ，还有从 Global Encoder 来的高维度的时空信息，MFF 模块因此用来整合这三种信息：

首先，对于Temporal-view Pyramid，将更深 stage 特征上采样至当前 stage 特征的尺寸，然后将深的stage 特征concat，与当前 stage 特征做点乘

点乘而不是相加，目的是让模型更加关注更高 stage 重要的信息

然后再跟 Frequency Feature 做点乘，让模型更加关注频率信息中重要的内容

最后和高维度时空信息融合，这里使用相加，再 Upsample 传到金字塔下一层中

Ⅳ. Loss Function

这里使用的 loss 也比较常规，还是 IoU Loss 和 Focal Loss

四. 实验内容

（1）Evaluation Performance

mIoU

F1 score

（2）Training & Testing Dataset

这篇论文实验工作量还是蛮大的，用到了三种数据集，分别是DAVIS Video Inpainting dataset (DVI)、Free-from Video Inpainting dataset (FVI)、YouTubeVOS dataset(YTVI)，其中 DVI 和 FVI 是为了配合前人工作的数据集，YTVI是自己提出的。

DVI、FVI、YTVI 数据集大小分别为150、100、3471个视频

（3）Video Inpainting Method

除此之外，用到的 Inpainting 方法包括之前人用的 Deep video inpainting(VI)、Onion-peel networks for deep video completion(OP)、Copy-and-paste networks for deep video inpainting(CP) 以及一些新的方法，如 FuseFormer、E2FGVI 和 Propainter。