type
status
date
slug
summary
tags
category
icon
password
🤖
AI总结: 第一篇使用transformer的视频inpainting检测论文。该文档介绍了一篇名为《Frequency-Aware Spatiotemporal Transformers for Video Inpainting Detection》的论文,该论文提出了一种将Transformer引入视频inpainting检测的方法。论文使用DCT离散余弦变换对RGB图像进行编码,并将RGB图像与DCT图像相结合,使用Transformer Encoder和Decoder的框架进行视频inpainting检测。论文还介绍了具体的流程、Decoder阶段的特征融合方法以及使用的损失函数和评估指标。

一. 重要概念

DCT离散余弦变换

数据压缩分为无损压缩和有损压缩,而DCT技术是有损压缩的重要组成。
DCT图像由将一张RGB图像进行DCT变换而来,DCT图像的特点是低频主要集中在左上,高频主要集中在右下。优点是具有更好的频域能量聚集度,也就是能把图像更重要的信息聚集在一起,在图像压缩过程中,通常将DCT图像右下角的部分舍去,删除一部分高频信息并不影响人眼的视觉感受
notion image
DCT仅能对灰度图像进行计算

二. 创新点

  • 第一个将transformer引入视频inpainting检测的论文(方法创新)
  • 模型框架为 “Transformer Encoder + Decoder” ,在解码的过程中将RGB图像和DCT图像相结合(方法创新)

三. 整体框架

整体的框架比较简单:Transformer Encoder + Decoder

具体流程

先使用 VIT 对RGB图像进行编码和注意力计算,得到潜在表征,随后还原为尺寸为(, , )的特征,然后逐步上采样,在上采样的过程中融合相应尺寸的频域特征。
                                            左边一列是Encode阶段,右边一列是Decode阶段
左边一列是Encode阶段,右边一列是Decode阶段

Decoder

值得注意的是Decode阶段中,从Transformer Encoder出来的特征需要与频域特征相结合,其中,DCT图像提取后需要经过三个滤波器,低通、中通、高通后进行IDCT变换为RGB图像(下图),然后将三个不同频段的RGB图像在通道上concat,最后再与不同尺寸的Transformer模块输出的图像特征进行结合。
notion image
 

Loss Function

  • 使用改进版交叉熵函数(CE):Focal loss
    • notion image
      其中,y为ground truth,y hat为预测mask,α和γ为超参数
       
  • IoU loss
    • notion image
 

四. 选用数据集

Davis Video Inpainting dataset (DVI) 和 Free-form Video Inpainting dataset (FVI)
其中使用Video Inpainting的方法包括:
  • Deep video inpainting(CVPR 2019)
  • Copy-and-paste networks for deep video inpainting(ICCV 2019)
  • Onion-peel networks for deep video completion(ICCV 2019)

五. 评估指标

score 和 mIoU
Deep Video Inpainting Localization Using Spatial and Temporal TracesVIDNet
Hidragon
Hidragon
我唯一知道的是我一无所知
公告
type
status
date
slug
summary
tags
category
icon
password
追风赶月莫停留,平芜尽处是春山