type
status
date
slug
summary
tags
category
icon
password

一. Abstract

1. Motivation:

以往video inpainting领域最好的方法就是使用注意力模型,从参考帧中搜索补全区域的内容用来恢复目标帧的hole。但是这些方法由于不连续的注意力结果,使得补全视频出现模糊和时序伪影的情况。

2. Method:

  • 前人方法:①首先介绍3D卷积和RNN网络,他们能够从相邻的帧中找到相关的区域,并进行补全,缺点是感受野不够大导致出现时序层面的伪影,不能从距离比较远的帧里面提取有用的信息,②因此出现了使用注意力机制来处理video inpainting任务,一种是基于frame-wise的,另一种是基于pixel-wise的,能够抓取远距离帧的有用信息,但是这两种方法要么太依赖于帧与帧之间的对齐,使得处理复杂运动的视频时效果不好,要么就在时序表现上效果不好。
  • 本文的方法:采用生成式模型和对抗式训练,使得模型学习到空间和时间的信息 。

3. Result:

实验结果在PSNR和VFID上以2.4%和19.7%的优势暴揍SOTA。

二. Mothod

1. Network construction

STTN分为三个部分,frame-level encoder、multi-layer multi-head spatial-temporal transformer 和 frame-level decoder

2. Encoder 和 Decoder

Encoder和Decoder都是由多个2D卷积层构成

3. multi-layer multi-head spatial-temporal transformer

该模块运行分为三个流程,分别是Embedding-Matching-Attending
notion image
  • Embedding:视频帧经过Encoder之后得到的特征,其中经过1×1卷积分别得到Q、K、V
  • Matching:在不同的head对Q、K、V进行不同尺度的分割,然后将分割出来的patch(尺寸为)进行reshape成一维,随后计算Q和K的相似度,并使用softmax进行归一化(仅对于hole之外的区域计算注意力)得到不同patch的权重(Q来自第i个patch,K来自第j个patch)
  • Attending:将不同patch的权重和对应的V相乘,得到注意力map,随后将不同head得到的attention map进行concate,丢进3×3卷积后做残差
注意力图的计算,i指的是第i个patch的注意力数值
注意力图的计算,i指的是第i个patch的注意力数值
随后就是下图所示经过norm然后输入到前馈神经网络模块中,对hole进行相应的补全
notion image

4. loss函数

FuseFormer的loss function借鉴于此,也是重构损失函数和对抗损失函数,权重分别为1和0.01
 
UMMAFormerFuseFormer
Hidragon
Hidragon
我唯一知道的是我一无所知
公告
type
status
date
slug
summary
tags
category
icon
password
追风赶月莫停留,平芜尽处是春山