Skip to main content
QUICK REVIEW

[論文レビュー] Capsule-Forensics: Using Capsule Networks to Detect Forged Images and Videos

Huy H. Nguyen, Junichi Yamagishi|arXiv (Cornell University)|Oct 26, 2018
Digital Media Forensic Detection被引用数 48
ひとこと要約

Capsule-Forensics はカプセルネットワークアーキテクチャを用いて、リプレイ攻撃やCG生成偽造を含む広範な改ざん画像・動画を検出し、いくつかのベンチマークで最先端またはほぼ完璧な精度を達成します。

ABSTRACT

Recent advances in media generation techniques have made it easier for attackers to create forged images and videos. State-of-the-art methods enable the real-time creation of a forged version of a single video obtained from a social network. Although numerous methods have been developed for detecting forged images and videos, they are generally targeted at certain domains and quickly become obsolete as new kinds of attacks appear. The method introduced in this paper uses a capsule network to detect various kinds of spoofs, from replay attacks using printed images or recorded videos to computer-generated videos using deep convolutional neural networks. It extends the application of capsule networks beyond their original intention to the solving of inverse graphics problems.

研究の動機と目的

  • 攻撃タイプが進化するにつれて効果を保つ一般的で攻撃手法に依存しない偽造検出器の必要性を動機づける。
  • 画像と動画の両方を扱えるカプセルネットワークベースの検出器を開発する(フレームレベルと動画レベルの集約)。
  • 逆グラフィックスに触発されたカプセルを活用して、階層的なポーズ関係と部品-全体の一貫性を偽造手掛かりとして捉える。

提案手法

  • 特徴を3つのプライマリ、2つの出力カプセルを用いたネットワークへ渡す(real vs fake)。
  • 顔を整列させた128x128入力からVGG-19の一部を用いて潜在特徴を抽出する。
  • 一般化と安定性を向上させるため、ランダムガウシアンノイズを用いたダイナミックルーティングを適用する。
  • 各次元ごとにreal/fakeを分離する多次元出力カプセルの定式化を用いたクロスエントロピー損失を使用する。
  • 動画における意思決定のためにフレームレベルの後方確率を集約する。
  • トレーニング時のランダムノイズを追加した場合とそうでない場合を比較する(Capsule-Forensics vs Capsule-Forensics-Noise)。

実験結果

リサーチクエスチョン

  • RQ1カプセルネットワークはドメイン固有の検出器を超えて、リプレイ、CGI、再演技を含む幅広い偽造タイプを堅牢に検出できるか?
  • RQ2訓練時にランダムノイズを導入することで、データセット間の一般化と性能が向上するか?
  • RQ3リプレイ、顔のスワッピング、顔の再演技、CGI検出タスクにおいて Capsule-Forensics は最新手法とどのように比較されるか?

主な発見

  • Replay-Attack において、Capsule-Forensics はノイズなしで HTER 0.28%、ノイズありで 0.00% を達成。
  • フレームレベルのフェイススワッピング検出(Deepfake データセット)で、ノイズなしで 94.47%、ノイズありで 95.93% の精度を達成。
  • 動画レベルのフェイススワッピング検出で、ノイズなしで 97.69%、ノイズありで 99.23%。
  • 顔再現(FaceForensics)では、圧縮レベルを跨いでもフレームレベルで最良の手法と同等またはそれを上回る。動画レベルでは、ノイズ付きの Capsule-Forensics は 99.33% で、比較対象は圧縮により約 82–98% 程度。
  • CGI対PI において、Capsule-Forensics は 99.72% のフルサイズ精度(パッチは 96.75%)、Capsule-Forensics-Noise は 100.00% のフルサイズ精度を達成。
  • ランダムノイズによる訓練は、一般にタスクとデータセット全体で性能を向上させる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。