QUICK REVIEW

[論文レビュー] Learning Rich Features for Image Manipulation Detection

Peng Zhou, Xintong Han|arXiv (Cornell University)|May 13, 2018

Digital Media Forensic Detection参考文献 24被引用数 82

ひとこと要約

RGB系改ざんアーティファクトとSRMベースのノイズ特徴を組み合わせることで、二流のFaster R-CNNが改ざん領域を検出し、複数のデータセットで最先端の結果を達成するとともに、リサイズ/圧縮に対する頑健性を示します。

ABSTRACT

Image manipulation detection is different from traditional semantic object detection because it pays more attention to tampering artifacts than to image content, which suggests that richer features need to be learned. We propose a two-stream Faster R-CNN network and train it endto- end to detect the tampered regions given a manipulated image. One of the two streams is an RGB stream whose purpose is to extract features from the RGB image input to find tampering artifacts like strong contrast difference, unnatural tampered boundaries, and so on. The other is a noise stream that leverages the noise features extracted from a steganalysis rich model filter layer to discover the noise inconsistency between authentic and tampered regions. We then fuse features from the two streams through a bilinear pooling layer to further incorporate spatial co-occurrence of these two modalities. Experiments on four standard image manipulation datasets demonstrate that our two-stream framework outperforms each individual stream, and also achieves state-of-the-art performance compared to alternative methods with robustness to resizing and compression.

研究の動機と目的

画像内容だけに依存するのではなく、改ざんアーティファクトを検出するために豊かな特徴学習の必要性を動機づける。
RGBの視覚的手がかりとノイズベースの特徴を統合する二流アーキテクチャを改ざん局在化のために提案する。
改ざん領域を局在化し、改ざんタイプを分類するエンドツーエンドの訓練を行う。
リサイズやJPEG圧縮などの一般的なポスト処理に対する頑健性を示す。

提案手法

SRMフィルタに基づくノイズストリームを持つRGBストリームを含む二流のFaster R-CNN。
RPN提案はRGB特徴量から生成され、操作が疑われる領域を特定する。
ノイズストリームはRGB入力をSRMフィルター層を通して局所ノイズ特徴を抽出する。
バイリニアプーリング fRGB^T fN は両ストリームの RoI特徴を改ざん分類のために融合する。
メモリを削減しつつ特徴間の相互作用を保持するためにコンパクトバイリニアプーリングを用いる。
損失はRPN損失、改ざん分類損失、境界ボックス回帰損失を組み合わせる。

実験結果

リサーチクエスチョン

RQ1RGB改ざんアーティファクトと局所ノイズの不一致の両方を活用する二流アーキテクチャは、画像操作検出において単一ストリーム手法を上回ることができるか。
RQ2バイリニアプーリングによるRGBとノイズ特徴の融合が、局在化と改ざん分類の両方にとってどのような利点をもたらすか。
RQ3提案手法はリサイズやJPEG圧縮などの一般的な後処理に対してどれだけ頑健か。
RQ4モデルはデータセット間で異なる改ざん手法（スプライシング、削除、コピー移動）をデータセット間で区別できるか。

主な発見

データセット	ELA	NOI1	CFA1	J-LSTM	RGB Net	Noise Net	Late Fusion	RGB-N
NIST16	0.429	0.487	0.501	0.764	0.857	0.881	0.924	0.937
Columbia	0.581	0.546	0.720	-	0.796	0.851	0.856	0.858
COVER	0.583	0.587	0.485	0.614	0.789	0.753	0.793	0.817
CASIA	0.613	0.612	0.522	-	0.768	0.693	0.777	0.795

二流RGB-Nネットワークは4つの標準データセットのそれぞれの個別ストリームを上回る。
この設定ではRGB特徴がノイズ特徴よりもRPN提案生成に適している。
バイリニアプーリングによる融合は、遅融合のベースラインを超えて改ざん分類と局在化を改善する。
合成前訓練では、RGB-NはAP 0.627を達成、COCOベースの事前訓練設定でRGBのみ0.445、ノイズのみ0.461に対して。
データセットを超えて、RGB-Nは複数のベースラインよりピクセルレベルのF1とAUCが高く、特にNIST16、Columbia、COVER、CASIAデータセットで顕著な改善を示す。
本手法はJPEG品質の変化やリサイズ攻撃に対してベースラインと比較して頑健性を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。