STTN | zwz Blog

type

status

date

slug

summary

tags

category

icon

password

一. Abstract

1. Motivation：

以往video inpainting领域最好的方法就是使用注意力模型，从参考帧中搜索补全区域的内容用来恢复目标帧的hole。但是这些方法由于不连续的注意力结果，使得补全视频出现模糊和时序伪影的情况。

2. Method：

前人方法：①首先介绍3D卷积和RNN网络，他们能够从相邻的帧中找到相关的区域，并进行补全，缺点是感受野不够大导致出现时序层面的伪影，不能从距离比较远的帧里面提取有用的信息，②因此出现了使用注意力机制来处理video inpainting任务，一种是基于frame-wise的，另一种是基于pixel-wise的，能够抓取远距离帧的有用信息，但是这两种方法要么太依赖于帧与帧之间的对齐，使得处理复杂运动的视频时效果不好，要么就在时序表现上效果不好。

本文的方法：采用生成式模型和对抗式训练，使得模型学习到空间和时间的信息。

3. Result：

实验结果在PSNR和VFID上以2.4%和19.7%的优势暴揍SOTA。

二. Mothod

1. Network construction

STTN分为三个部分，frame-level encoder、multi-layer multi-head spatial-temporal transformer 和 frame-level decoder

2. Encoder 和 Decoder

Encoder和Decoder都是由多个2D卷积层构成

3. multi-layer multi-head spatial-temporal transformer

该模块运行分为三个流程，分别是Embedding-Matching-Attending

notion image

Embedding：视频帧经过Encoder之后得到的特征，其中，经过1×1卷积分别得到Q、K、V

Matching：在不同的head对Q、K、V进行不同尺度的分割，然后将分割出来的patch（尺寸为）进行reshape成一维，随后计算Q和K的相似度，并使用softmax进行归一化（仅对于hole之外的区域计算注意力）得到不同patch的权重（Q来自第i个patch，K来自第j个patch）

Attending：将不同patch的权重和对应的V相乘，得到注意力map，随后将不同head得到的attention map进行concate，丢进3×3卷积后做残差

注意力图的计算，i指的是第i个patch的注意力数值

随后就是下图所示经过norm然后输入到前馈神经网络模块中，对hole进行相应的补全

notion image

4. loss函数

FuseFormer的loss function借鉴于此，也是重构损失函数和对抗损失函数，权重分别为1和0.01

作者:Hidragon
链接:https://www.zwzwoody.fun/article/4fbae724-7ccb-4f8a-b4e1-547224a7285a
声明:本文采用 CC BY-NC-SA 4.0 许可协议，转载请注明出处。

相关文章

UMMAFormer FuseFormer

Hidragon

Hidragon

我唯一知道的是我一无所知

最新发布

公告

type

status

date

slug

summary

tags

category

icon

password

追风赶月莫停留，平芜尽处是春山