VIDNet | zwz Blog

type

status

date

slug

summary

一. 重要概念

1. ELA(错误级别分析)

由于被编辑的图片再被编辑的区域与其他区域存在像素质量（纹理）的差异，因此将该图片进行jpg压缩，然后与原图做差即可得到ELA图像。

公式为：

效果：ELA图像中不连续的部分（跟其他区域差别明显）被编辑的可能性比较大，如下图：

缺点：当图像中存在其他物品(如尖锐边界)时，它们往往会产生假警报，这需要特别判断来确定某个区域是否被篡改。

2. ConvLSTM（2015）

LSTM有三个门：输入门，输出门，遗忘门。网络主要通过学习对这三者的控制来得到理想的结果。ConvLSTM是LSTM的变体，改变主要是W的权值计算变成了卷积运算，这样可以提取出图像的特征。还有值得注意的是，LSTM计算单元内的权值是共享的，每层LSTM都共享一份权值。

二. 创新点

第一篇提出 video inpainting detection的深度学习论文，因此论文标题就是这个（题材创新）

在输入上，将ELA和RGB图像共同输入模型中，形成双流网络。在方法上，提出quad-directional local attention module和采用ConvLSTM方法解决时空域的问题（方法创新）

三. 整体框架

首先，模型的整体架构上与U-Net很像，保留前面若干 Encoder 层提取的特征，在后续 Decoder 操作中进行信息聚合concat。模型总体使用了五次信息聚合concat（意味着 Encoder 提取了五次不同尺度的特征）、四次ConvLSTM操作、以及在最后一次抽取的特征中进行四向注意力计算。

1. ELA+RGB特征

首先是计算出ELA图像，然后对ELA图像和RGB图像分别提取4次和5次不同尺度的特征（这里没有信息聚合），前四次ELA图像特征和RGB图像特征需要

虽然ELA在篡改检测中发挥了一定的作用，但是在ELA图像在高维时几乎没啥作用，所以在最高维的特征中，只有RGB图像特征输入到了后续的 quad-directional local attention 模块。

2. quad-directional local attention模块

输入为，输出为四个特征。

简单介绍一下这个模块的想法：由于inpainted区域中内容（hole）的填充都与周围区域（非hole）的像素有关，因此对图像中的每一个像素分别从上下左右四个方向来进行计算（并行）。

计算方法非常简单，以从左至右这一个方向为例，对于当前第k点的像素，将左边一位的像素值与当前像素值做加权和，权重为 A[k] ，公式如下：

那么问题来了，权重 A[k] 怎么计算？

其实就是对进行卷积计算，得到一个权重map，作者在这里将这个权重map比作是注意力map，由于对四个方向都要做上述运算，因此作者说这类似于一个四个头的multi-head attention map。

3. ConvLSTM Decoder

该模块将高维特征逐步转变为低维特征，将 quad-directional local attention 模块中得到的四个方向的配合前面Encoder提取的分别输入ConvLSTM中，ConvLSTM能够结合时空信息，将前一帧的信息传递到下一帧（左右），经过四次ConvLSTM（上下）的计算可以得到四个方向的特征，最后concat到一起，再进入conv层即可得到最终预测的Mask结果。

ConvLSTM的计算公式为：

其中，为LSTM输出值、为单元状态值。

以从左到右的特征为例，ConvLSTM的计算过程见下图：

4. Loss Function

使用IoU score

由于评估指标中含有mean Intersection of Union(mIoU)，因此使用IoU loss能够有效提高模型性能。