type
status
date
slug
summary
tags
category
icon
password
🤖
AI总结: 本文介绍了关于深度视频修复检测的论文"Deep Video Inpainting Detection"。文章提出了ELA和RGB图像共同输入模型的双流网络,以及quad-directional local attention模块和ConvLSTM解决时空域问题的方法。整体框架包括ELA+RGB特征提取、quad-directional local attention模块和ConvLSTM解码器。该模型在视频修复检测方面具有创新性和方法创新。

一. 重要概念

1. ELA(错误级别分析)

由于被编辑的图片再被编辑的区域与其他区域存在像素质量(纹理)的差异,因此将该图片进行jpg压缩,然后与原图做差即可得到ELA图像。
公式为:
效果:ELA图像中不连续的部分(跟其他区域差别明显)被编辑的可能性比较大,如下图:
              左侧两边书籍和中间一个恐龙被编辑过
左侧两边书籍和中间一个恐龙被编辑过
 从上到下分别为 inpainted frame、ELA和伪造区域mask
从上到下分别为 inpainted frame、ELA和伪造区域mask
 
缺点:当图像中存在其他物品(如尖锐边界)时,它们往往会产生假警报,这需要特别判断来确定某个区域是否被篡改。

2. ConvLSTM(2015)

LSTM有三个门:输入门,输出门,遗忘门。网络主要通过学习对这三者的控制来得到理想的结果。ConvLSTM是LSTM的变体,改变主要是W的权值计算变成了卷积运算,这样可以提取出图像的特征。还有值得注意的是,LSTM计算单元内的权值是共享的,每层LSTM都共享一份权值。

二. 创新点

  1. 第一篇提出 video inpainting detection的深度学习论文,因此论文标题就是这个(题材创新)
    1.                                                                                VIDNet效果图
      VIDNet效果图
  1. 在输入上,将ELA和RGB图像共同输入模型中,形成双流网络。在方法上,提出quad-directional local attention module和采用ConvLSTM方法解决时空域的问题(方法创新)

三. 整体框架

首先,模型的整体架构上与U-Net很像,保留前面若干 Encoder 层提取的特征,在后续 Decoder 操作中进行信息聚合concat。模型总体使用了五次信息聚合concat(意味着 Encoder 提取了五次不同尺度的特征)、四次ConvLSTM操作、以及在最后一次抽取的特征中进行四向注意力计算。
                                                             VIDNet总体框架
VIDNet总体框架

1. ELA+RGB特征

首先是计算出ELA图像,然后对ELA图像和RGB图像分别提取4次和5次不同尺度的特征(这里没有信息聚合),前四次ELA图像特征和RGB图像特征需要
虽然ELA在篡改检测中发挥了一定的作用,但是在ELA图像在高维时几乎没啥作用,所以在最高维的特征中,只有RGB图像特征输入到了后续的 quad-directional local attention 模块
notion image

2. quad-directional local attention模块

输入为,输出为四个特征。
简单介绍一下这个模块的想法:由于inpainted区域中内容(hole)的填充都与周围区域(非hole)的像素有关,因此对图像中的每一个像素分别从上下左右四个方向来进行计算(并行)。
notion image
计算方法非常简单,以从左至右这一个方向为例,对于当前第k点的像素,将左边一位的像素值与当前像素值做加权和,权重为 A[k] ,公式如下:
notion image
那么问题来了,权重 A[k] 怎么计算?
其实就是对进行卷积计算,得到一个权重map,作者在这里将这个权重map比作是注意力map,由于对四个方向都要做上述运算,因此作者说这类似于一个四个头的multi-head attention map。

3. ConvLSTM Decoder

该模块将高维特征逐步转变为低维特征,将 quad-directional local attention 模块中得到的四个方向的配合前面Encoder提取的分别输入ConvLSTM中,ConvLSTM能够结合时空信息,将前一帧的信息传递到下一帧(左右),经过四次ConvLSTM(上下)的计算可以得到四个方向的特征,最后concat到一起,再进入conv层即可得到最终预测的Mask结果。
notion image
ConvLSTM的计算公式为:
notion image
其中,为LSTM输出值、为单元状态值。
以从左到右的特征为例,ConvLSTM的计算过程见下图:
notion image

4. Loss Function

使用IoU score
notion image
由于评估指标中含有mean Intersection of Union(mIoU),因此使用IoU loss能够有效提高模型性能。
FASTUMMAFormer
Hidragon
Hidragon
我唯一知道的是我一无所知
公告
type
status
date
slug
summary
tags
category
icon
password
追风赶月莫停留,平芜尽处是春山