type
status
date
slug
summary
tags
category
icon
password
🤖
AI总结: "MumPy"是一篇关于视频修复检测的论文。该论文提出了多视角时间金字塔变换器用于视频修复检测。论文提出了多时间视角编码器、可变形和基于窗口的信息传播和多金字塔解码器作为创新点。论文还详细介绍了整体框架和实验内容,包括评估性能、训练和测试数据集、对比实验和鲁棒性分析。

一. 重要概念

  1. DCN:Deformable Convolution Network,具有可学习的偏置,将卷积核的固定采样加上学习到的偏置,使得卷积核能够根据图像的特定信息进行变形。最开始使用于目标检测领域,后来延伸到视频inpainting以及视频inpainting检测。
    1. notion image
  1. 特征金字塔:在多尺度特征金字塔的基础上,多加一个特征融合(相加而非concat)操作
    1. notion image

二. 创新点

  • Multilateral Temporal-view Encoder:提供多个时间视角,即给模型输入不同长短的视频帧,并利用Swin Transformer的Encoder block提取其中的特征
  • Deformable Window-based Temporal-view Interaction:通过 DCN 和 Cross-Attention (在小窗中计算)结合,将不同长度的视频特征进行融合(从短的往长的融合)
  • Multi-pyramid Decoder:设计了一个多特征金字塔Decoder,将三种信息的金字塔进行融合

三. 整体框架

  1. 首先,将视频分成长度为 t 、尺寸为 h×w 的小窗视频段,其中长度为 t 的小窗视频有个。需要说明的是,上述的分段视频仅仅是一个时长的,本论文将一个视频分成了不同时长的小窗视频 k 种(k个view),因此一个视频就有个小窗视频。
  1. 其次,将分好的小窗视频段进行token化并且输入到 Swin Transformer Encoder Block 中,根据是否添加新的 Transformer Encoder Block 来进入下一个stage。不同view的最后一个stage的特征还需要输入到另一个全局的Transformer Encoder,以便得到更高维度的时序信息。
  1. 不同 view 之间还需要进行交互,这里使用DCN和Cross-attention(局部window),将短的小窗视频向长的小窗视频融合(类似于正向Propagation)。随后,不同 view 中同一个 stage 的特征通过TFF模块融合,得到一个特征金字塔 Temporal-view Pyramid。
  1. 从视频中间取一帧进行DCT变换,过滤出低频、中频、高频的DCT图像并进行IDCT变换,随后得到多尺度特征金字塔 Frequency-assistance Pyramid。
  1. 现在,我们手上既有 Temporal-view Pyramid ,也有 Frequency-assistance Pyramid,还有第二步中得到的更高维度的信息,将这三者送进MFF模块中进行信息融合,最后输出预测mask。
notion image
 

Ⅰ. Multilateral Temporal-view Encoder

这一部分就是针对不同长度的小窗视频进行不同stage的特征提取,这里以一个长度为 的小窗视频为例:
  • Tokenization
    • 首先经过一个3D 卷积,卷积核尺寸为,得到 个token,表示为:,其中,0表示 Stage 1 的输入。
  • Encoder:
    • Encoder 由 window-based multihead self-attention 模块和 shifted window-based multihead self-attention 模块交替组成,从而将token输入到不同深度的 Encoder模块得到不同 Stage 的特征信息。
      notion image
  • Global Encoder:
    • 由于不同长度的小窗视频是不同的 view,而上述的 Encoder 只是针对特定长度的小窗视频进行特征提取,这仅仅在空间维度进行注意力计算,所以将上述 Encoder 得到的不同 view 的最后一层 stage 的特征送进一个全局的 Transformer Encoder 来计算全局的注意力信息,从而得到 时间+空间 的特征表示。
       

Ⅱ. Deformable Window-based Temporal-view Interaction

由于目前在每一个 view 中还没有信息交互,即不同长度的视频特征信息缺乏交互,因此需要通过一个模块来建立不同 view 之间的联系,这里作者提出 Deformable Window-based Temporal-view Interaction 模块。
Deformable Window-based Temporal-view Interaction 模块作用是正向的信息传播,即短的视频特征信息往长的视频特征信息传送,并且将 DCN 和 Cross-attention 思想结合。
notion image
看上图(b),长的视频特征提供 Query 和 DCN 偏置,短的视频特征通过 DCN 模块得到 Key 和 Value,然后通过 Q K V 进行Cross-attention计算,从而实现不同长度的视频特征之间的交互。
需要注意的是,这里的Cross-attention计算并不是全局的,而是 Window-based 的。
 

Ⅲ. Multi-pyramid Decoder

  1. Temporal-view Pyramid
    1. 不同 view 中同一个 stage 的特征通过TFF模块融合,TFF模块示意图如下所示:
      notion image
      由于不同长度的小窗视频各自的数量是不同的,因此选取最大的数量 v 作为参考,将数量少的视频个数扩充到 v ,然后在通道维度上进行concat,再 3D CNN、Group Normalization、ReLU激活三步走,得到一张特征图(此时数量全部被压缩)
       
  1. Frequency-assistance Pyramid
    1. 从视频中间取一帧进行DCT变换,过滤出低频、中频、高频三种DCT图像并进行IDCT变换,这就得到了不同频率的图像信息,在通道上做concat,随后得到多尺度特征金字塔 Frequency-assistance Pyramid
 
  1. Multi-source Feature Fusing Pyramid
    1. 现在我们手上既有来自 TFF 模块的 Temporal-view Pyramid ,也有来自频率的 Frequency-assistance Pyramid ,还有从 Global Encoder 来的高维度的时空信息,MFF 模块因此用来整合这三种信息:
notion image
notion image
  • 首先,对于Temporal-view Pyramid,将更深 stage 特征上采样至当前 stage 特征的尺寸,然后将深的stage 特征concat,与当前 stage 特征做点乘
    • 点乘而不是相加,目的是让模型更加关注更高 stage 重要的信息
  • 然后再跟 Frequency Feature 做点乘,让模型更加关注频率信息中重要的内容
  • 最后和高维度时空信息融合,这里使用相加,再 Upsample 传到金字塔下一层中
 

Ⅳ. Loss Function

这里使用的 loss 也比较常规,还是 IoU Loss 和 Focal Loss

四. 实验内容

(1)Evaluation Performance

  1. mIoU
  1. F1 score

(2)Training & Testing Dataset

这篇论文实验工作量还是蛮大的,用到了三种数据集,分别是DAVIS Video Inpainting dataset (DVI)、Free-from Video Inpainting dataset (FVI)、YouTubeVOS dataset(YTVI),其中 DVI 和 FVI 是为了配合前人工作的数据集,YTVI是自己提出的。
DVI、FVI、YTVI 数据集大小分别为150、100、3471个视频

(3)Video Inpainting Method

除此之外,用到的 Inpainting 方法包括之前人用的 Deep video inpainting(VI)、Onion-peel networks for deep video completion(OP)、Copy-and-paste networks for deep video inpainting(CP) 以及一些新的方法,如 FuseFormer、E2FGVI 和 Propainter。

(4)Result Comparation

对比的工作包括
  • 视频inpainting检测:VIDNet (BMVC’21)、FAST (ICCV’21)、DSTT (ICASSP’22)
  • 图像inpainting检测:HPF (ICCV’19)、GSRNet (AAAI’20)、OSNet (CVPR’22)、HiFi-Net (CVPR’23)
notion image
结果比对的方式
  1. 在 YTVI 数据集上训练和预测,使用 VI、OP、CP三种中的两种 Video Inpainting 方法排列组合进行训练:
notion image
  1. 在 DVI 数据集上训练和预测,使用 VI、OP、CP三种中的两种 Video Inpainting 方法排列组合进行训练:
notion image
  1. 在 YTVI 数据集上训练,DVI 数据集做测试,使用 VI、OP、CP三种中的两种 Video Inpainting 方法排列组合进行训练:
    1. notion image
  1. 加大难度。在 YTVI 数据集上训练,YTVI 和 DVI 两个数据集做测试,使用 FuseFormer、E2FGVI 和 Propainter三种 Video Inpainting 方法进行训练,测试的方法增至七种:
    1. notion image
  1. 在 DVI 数据集上训练,FVI 数据集做测试,使用 VI 和 OP两种 Video Inpainting 方法进行训练:
    1. notion image

(5)Ablation Study & Robustness Analysis

  • 消融实验分别测试 Decoder 中 temporal-view features、frequency features、MFF 以及 deformable window-based temporal-view interaction的作用。
  • 鲁棒实验测试在JPEG压缩和高斯噪声扰动下模型的鲁棒性。
 
双流网络Deep Video Inpainting Localization Using Spatial and Temporal Traces
Hidragon
Hidragon
我唯一知道的是我一无所知
公告
type
status
date
slug
summary
tags
category
icon
password
追风赶月莫停留,平芜尽处是春山