[論文レビュー] Self-supervised Transformer for Deepfake Detection
自己教師ありの音声-映像対比事前学習フレームワークは、3D CNN、2D CNN、Transformerバックエンドを組み合わせたビデオエンコーダーで唇の動き表現を頑健に学習し、監督付きリップリーディング事前学習なしでディープフェイク検出の一般化と頑健性を向上させる。
The fast evolution and widespread of deepfake techniques in real-world scenarios require stronger generalization abilities of face forgery detectors. Some works capture the features that are unrelated to method-specific artifacts, such as clues of blending boundary, accumulated up-sampling, to strengthen the generalization ability. However, the effectiveness of these methods can be easily corrupted by post-processing operations such as compression. Inspired by transfer learning, neural networks pre-trained on other large-scale face-related tasks may provide useful features for deepfake detection. For example, lip movement has been proved to be a kind of robust and good-transferring highlevel semantic feature, which can be learned from the lipreading task. However, the existing method pre-trains the lip feature extraction model in a supervised manner, which requires plenty of human resources in data annotation and increases the difficulty of obtaining training data. In this paper, we propose a self-supervised transformer based audio-visual contrastive learning method. The proposed method learns mouth motion representations by encouraging the paired video and audio representations to be close while unpaired ones to be diverse. After pre-training with our method, the model will then be partially fine-tuned for deepfake detection task. Extensive experiments show that our self-supervised method performs comparably or even better than the supervised pre-training counterpart.
研究の動機と目的
- 未見の改ざん手法や後処理を横断して一般化する頑健なディープフェイク検出を動機づける。
- 監督付きリップリーディング事前学習と比較して、注釈コストを削減するために自己教師あり事前学習を活用する。
- 音声-映像の一致性を通じて唇の動き表現を学習し、ディープフェイク検出へ転移させる。
- クロスデータセットおよびクロス操作に対する一般化と、一般的なノイズ・劣化に対する頑健性を評価する。
提案手法
- フロントエンドの3D convと2D CNN、バックエンドの時系列Transformerを備えた2段階の時空ビデオエンコーダで、唇の動き表現を得る。
- InfoNCEを用いたクロスモーダル対比学習により、音声( wav2vec2ベース )と視覚的な唇の動き特徴を共通空間に整列させる。
- Videoとaudioエンコーダは特徴を共有空間へMLPヘッドを介して射影する。正のペアは同期した音声-映像セグメント、負のペアは他のペア。
- ファインチューニングではフロントエンドとアダプターを固定し、Transformer層ごとに制御された学習率で分類ヘッドを訓練し、事前学習済みの知識を保持する。
- 事前学習には VoxCeleb2 および AVSpeech-scale データを使用し、ファインチューニングは FaceForensics++、クロスデータセットベンチマークでの評価。
実験結果
リサーチクエスチョン
- RQ1唇の動きの自己教師あり音声-映像事前学習は、監督付きリップリーディングデータなしで頑健なディープフェイク検出へ転移できるか?
- RQ2提案された事前学習は、未見の操作手法や異なるデータセット間の一般化を改善するか?
- RQ3事前学習データの規模が検出性能とクロスデータセット転移にどう影響するか?
- RQ4このタスクにおいて、Transformerバックエンドを持つアーキテクチャは lip-movement 表現において MSTCN より有利か?
主な発見
- 提案された自己教師あり事前学習は、ディープフェイク検出において監督付き事前学習と同等以上の性能を達成する。
- 事前学習済みモデルは、未見の改ざん手法およびクロスデータセットのシナリオに対して、いくつかのベースラインよりも強い一般化を示す。
- 事前学習データの規模を増やすと、データセット内およびデータセット間のAUC性能が向上し、特により大きなバックボーンで顕著である。
- 自己教師あり事前学習を使用する場合に特に、一般的なビデオの劣化に対する頑健性を示す。
- Transformerバックエンドのアーキテクチャは、同様の設定とデータ下でMSTCNベースラインを上回り、より大きなフロントエンドモデルはクロスデータセット性能をさらに向上させる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。