FAST | zwz Blog

type

status

date

slug

summary

category

icon

password

🤖

AI总结： 第一篇使用transformer的视频inpainting检测论文。该文档介绍了一篇名为《Frequency-Aware Spatiotemporal Transformers for Video Inpainting Detection》的论文，该论文提出了一种将Transformer引入视频inpainting检测的方法。论文使用DCT离散余弦变换对RGB图像进行编码，并将RGB图像与DCT图像相结合，使用Transformer Encoder和Decoder的框架进行视频inpainting检测。论文还介绍了具体的流程、Decoder阶段的特征融合方法以及使用的损失函数和评估指标。

一. 重要概念 DCT离散余弦变换二. 创新点三. 整体框架具体流程 Decoder Loss Function 四. 选用数据集五. 评估指标

一. 重要概念

DCT离散余弦变换

数据压缩分为无损压缩和有损压缩，而DCT技术是有损压缩的重要组成。

DCT图像由将一张RGB图像进行DCT变换而来，DCT图像的特点是低频主要集中在左上，高频主要集中在右下。优点是具有更好的频域能量聚集度，也就是能把图像更重要的信息聚集在一起，在图像压缩过程中，通常将DCT图像右下角的部分舍去，删除一部分高频信息并不影响人眼的视觉感受。

DCT仅能对灰度图像进行计算

二. 创新点

第一个将transformer引入视频inpainting检测的论文（方法创新）

模型框架为 “Transformer Encoder + Decoder” ，在解码的过程中将RGB图像和DCT图像相结合（方法创新）

三. 整体框架

整体的框架比较简单：Transformer Encoder + Decoder

具体流程

先使用 VIT 对RGB图像进行编码和注意力计算，得到潜在表征，随后还原为尺寸为（, , ）的特征，然后逐步上采样，在上采样的过程中融合相应尺寸的频域特征。

Decoder

值得注意的是Decode阶段中，从Transformer Encoder出来的特征需要与频域特征相结合，其中，DCT图像提取后需要经过三个滤波器，低通、中通、高通后进行IDCT变换为RGB图像（下图），然后将三个不同频段的RGB图像在通道上concat，最后再与不同尺寸的Transformer模块输出的图像特征进行结合。

Loss Function

使用改进版交叉熵函数（CE）：Focal loss

其中，y为ground truth，y hat为预测mask，α和γ为超参数

IoU loss

四. 选用数据集

Davis Video Inpainting dataset (DVI) 和 Free-form Video Inpainting dataset (FVI)

其中使用Video Inpainting的方法包括：

Deep video inpainting（CVPR 2019）

Copy-and-paste networks for deep video inpainting（ICCV 2019）

Onion-peel networks for deep video completion（ICCV 2019）

五. 评估指标

score 和 mIoU