[論文レビュー] Rethinking Image Forgery Detection via Soft Contrastive Learning and Unsupervised Clustering
FOCAL は画像ごとの監視付きとピクセルレベルの対比学習により、トレーニングを再実施せずに複数データセット間で IoU/F1 を強く改善し、単純な特徴フュージョンによる性能向上も可能にする。
Image forgery detection aims to detect and locate forged regions in an image. Most existing forgery detection algorithms formulate classification problems to classify pixels into forged or pristine. However, the definition of forged and pristine pixels is only relative within one single image, e.g., a forged region in image A is actually a pristine one in its source image B (splicing forgery). Such a relative definition has been severely overlooked by existing methods, which unnecessarily mix forged (pristine) regions across different images into the same category. To resolve this dilemma, we propose the FOrensic ContrAstive cLustering (FOCAL) method, a novel, simple yet very effective paradigm based on soft contrastive learning and unsupervised clustering for the image forgery detection. Specifically, FOCAL 1) designs a soft contrastive learning (SCL) to supervise the high-level forensic feature extraction in an image-by-image manner, explicitly reflecting the above relative definition; 2) employs an on-the-fly unsupervised clustering algorithm (instead of a trained one) to cluster the learned features into forged/pristine categories, further suppressing the cross-image influence from training data; and 3) allows to further boost the detection performance via simple feature-level concatenation without the need of retraining. Extensive experimental results over six public testing datasets demonstrate that our proposed FOCAL significantly outperforms the state-of-the-art competitors by big margins: +24.8% on Coverage, +18.9% on Columbia, +17.3% on FF++, +15.3% on MISD, +15.0% on CASIA and +10.5% on NIST in terms of IoU (see also Fig. 1). The paradigm of FOCAL could bring fresh insights and serve as a novel benchmark for the image forgery detection task. The code is available at https://github.com/HighwayWu/FOCAL.
研究の動機と目的
- 単一画像内の偽造ピクセルと健全ピクセルの相対的な定義を再考し、偽造検出における跨画像の一貫性の欠如に対処する。
- 画像偽造タスクに特化したピクセルレベルの対比学習フレームワークを開発する。
- テスト時にオンザフライの、跨データセットの学習影響を受けない教師なしクラスタリング手順を導入する。
- 再学習なしに特徴レベルの簡易フュージョンで性能向上を可能にする。
- 六つの公開テストデータセット全体で頑健性とドメイン横断一般化を示す。
提案手法
- ピクセルレベルの対比学習を用いて、正解の偽造マスクを陽性/陰性ラベルとして活用し、画像ごとに高レベルの鑑識特徴を監視する。
- 安定した最適化のため、各画像内の全ての陽性キーを平均化する改良版 InfoNCE 損失(InfoNCE++)を採用する。
- テスト時にオンザフライのクラスタリングアルゴリズム(HDBSCAN)を適用し、訓練パラメータを用いずに特徴を偽造/健全へマッピングする。
- オプションとして複数バックボーン(例:HRNet と ViT)からの特徴を特徴レベルでフュージョンし、再学習なしで検出性能を向上させる。
実験結果
リサーチクエスチョン
- RQ1偽造ピクセルと健全ピクセルを画像内の相対定義として捉えることは、従来のバッチレベルの監視と比較して検出性能にどのような影響を与えるか。
- RQ2画像ごと loss と教師なしクラスタリングを用いたピクセルレベルの対比学習は、跨データセットの偽造検出を改善できるか。
- RQ3複数のバックボーンの特徴レベルフュージョンは再学習なしで偽造局在化を向上させるか。
主な発見
| Methods | Columbia F1 | Columbia IoU | Coverage F1 | Coverage IoU | CASIA F1 | CASIA IoU | MISD F1 | MISD IoU | NIST F1 | NIST IoU | FF++ F1 | FF++ IoU | Mean F1 | Mean IoU |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Lyu-NOI | .522 | .150 | .481 | .125 | .356 | .095 | .507 | .199 | .478 | .026 | .496 | .071 | ||
| PCA-NOI | .539 | .168 | .529 | .125 | .472 | .093 | .517 | .150 | .460 | .046 | .523 | .108 | ||
| PSCC-Net | .577 | .480 | .655 | .337 | .716 | .409 | .746 | .448 | .300 | .078 | .509 | .092 | .584 | .307 |
| PSCC-Net † | .850 | .770 | .584 | .179 | .753 | .474 | .735 | .403 | .632 | .251 | .518 | .068 | .679 | .357 |
| MVSS-Net | .766 | .591 | .700 | .384 | .707 | .396 | .803 | .525 | .621 | .243 | .553 | .127 | .691 | .378 |
| MVSS-Net † | .888 | .784 | .690 | .356 | .770 | .509 | .765 | .450 | .635 | .255 | .633 | .241 | .730 | .433 |
| IF-OSN | .766 | .612 | .561 | .178 | .741 | .465 | .811 | .548 | .639 | .246 | .628 | .266 | .691 | .386 |
| IF-OSN † | .846 | .719 | .651 | .314 | .828 | .553 | .765 | .521 | .608 | .226 | .607 | .222 | .717 | .426 |
| CAT-Net | .864 | .741 | .614 | .231 | .846 | .642 | .665 | .314 | .620 | .230 | .534 | .095 | .690 | .375 |
| TruFor | .821 | .734 | .741 | .450 | .835 | .626 | .746 | .423 | .688 | .343 | .817 | .565 | .774 | .523 |
| FOCAL (HRNet) | .962 | .929 | .769 | .524 | .864 | .706 | .857 | .639 | .710 | .403 | .837 | .605 | l | |
| FOCAL (ViT) | .980 | .969 | .835 | .647 | .897 | .766 | .874 | .666 | .724 | .433 | .846 | .630 | .? | |
| FOCAL (Fusion) | .981 | .970 | .863 | .693 | .898 | .777 | .886 | .690 | .737 | .446 | .904 | .740 | .878 | .719 |
- 画像ごとの対比学習とオンザフライのクラスタリングを用いたFOCALは、IoU と F1 の両方で六つのテストデータセットにおいて最先端手法を大幅に上回る。
- HRNet と ViT からの特徴をフュージョンした FO CAL Fusion が跨データセット性能で最良を示し、IoU 指標で他手法を大きく上回る(例:Coverage +18.6%、Columbia +17.5%、FF++ +10.3%)。
- 教師なしクラスタリング(HDBSCAN)は画ごとに異なる偽造タイプを効果的に処理し、健全画像での誤警報を低減する。
- 情報NCE 損失の改良版(InfoNCE++)は複数の正例キーを各クエリごとに集約し、収束を促進しバッチベースや従来の InfoNCE より安定性が向上する。
- 特徴レベルのフュージョンは再学習なしで顕著な利得を提供し、バックボーンの選択に対する頑健性と単一特徴抽出器による偏りの軽減を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。