QUICK REVIEW

[論文レビュー] Complement Face Forensic Detection and Localization with FacialLandmarks

Kritaphat Songsri-in, Stefanos Zafeiriou|arXiv (Cornell University)|Oct 12, 2019

Face recognition and analysis参考文献 34被引用数 26

ひとこと要約

本論文は、130万枚の画像を含み、二値マスクでラベル付けされた、大規模な顔フェイク検出局所化データセットを初めて紹介する。このデータセットには、本物の顔、GANで生成された顔、編集済みの顔が含まれる。本論文では、空間的顔ランドマークと検出と局所化を同時に最適化する二重ブランチXceptionNetモデルを提案し、低品質動画においても最先端の性能を達成した。特に、局所化精度が90.82%のIoUを達成した。

ABSTRACT

Recently, Generative Adversarial Networks (GANs) and image manipulating methods are becoming more powerful and can produce highly realistic face images beyond human recognition which have raised significant concerns regarding the authenticity of digital media. Although there have been some prior works that tackle face forensic classification problem, it is not trivial to estimate edited locations from classification predictions. In this paper, we propose, to the best of our knowledge, the first rigorous face forensic localization dataset, which consists of genuine, generated, and manipulated face images. In particular, the pristine parts contain face images from CelebA and FFHQ datasets. The fake images are generated from various GANs methods, namely DCGANs, LSGANs, BEGANs, WGAN-GP, ProGANs, and StyleGANs. Lastly, the edited subset is generated from StarGAN and SEFCGAN based on free-form masks. In total, the dataset contains about 1.3 million facial images labelled with corresponding binary masks. Based on the proposed dataset, we demonstrated that explicit adding facial landmarks information in addition to input images improves the performance. In addition, our proposed method consists of two branches and can coherently predict face forensic detection and localization to outperform the previous state-of-the-art techniques on the newly proposed dataset as well as the faceforecsic++ dataset especially on low-quality videos.

研究の動機と目的

顔フェイク検出局所化の分野において、特に部分的に編集された顔を対象とした、大規模でマスクラベルが付与されたデータセットの不足を解消すること。
従来の手法が本物か偽物かの分類しか行わないのに対し、改ざん領域を局所化できないという限界を克服すること。
空間的顔ランドマーク特徴を深層学習モデルに統合することで、より良い局所化性能を実現し、フォレンジック性能を向上させること。
検出と局所化を同時に予測する統合型モデルを開発し、低品質な動画入力に対しても耐性を高めること。
転移学習とマルチタスク学習を活用して、顔偽造検出と局所化分野における今後の研究の強固なベースラインを確立すること。

提案手法

130万枚の画像を含む大規模な顔フェイク検出データセットを構築し、それぞれが二値マスクでラベル付けされた。データセットには、完全な顔（CelebA, FFHQ）、GANで生成された顔（DCGAN, StyleGANなど）、編集済みの顔（StarGAN, SEFCGAN）が含まれる。
二重ブランチXceptionNetアーキテクチャを設計：一方のブランチは分類（本物対偽物）、もう一方はセグメンテーション（マスク予測）を担当し、同時に学習可能である。
空間的顔ランドマーク特徴を補助入力として組み込み、特徴表現を強化し、局所化精度を向上させる。
マルチタスク学習を適用し、訓練中に分類ヘッドと局所化ヘッドを同時に最適化することで、一般化性能と特徴の整合性を向上させる。
ImageNetからの事前学習済みXceptionNetを活用し、特徴を顔フェイク検出と局所化タスクに適応させる。
訓練中に包括的損失の組み合わせを適用し、分類と局所化の予測を同時に最適化することで、モデルの整合性と性能を向上させる。

実験結果

リサーチクエスチョン

RQ1マスクラベルが付与された大規模なデータセットは、セグメンテーションラベルのない従来のデータセットと比較して、顔フェイク検出局所化モデルの性能を顕著に向上させることができるか？
RQ2空間的顔ランドマーク情報の統合は、顔フェイク検出タスクにおける深層学習モデルの検出と局所化精度を向上させるか？
RQ3分類と局所化を同時に最適化する二重ブランチネットワークアーキテクチャは、単一タスクモデルを上回る性能を発揮できるか？
RQ4本手法の性能は、特に偽造アーチファクトが目立たない低品質な設定において、どのように変化するか？
RQ5ピクセルレベルの信号が劣化している低品質な動画シナリオにおいて、顔ランドマークはどの程度の耐性を提供するか？

主な発見

FaceForensic++データセットにおいて、高品質な動画では96.58%のバイナリ検出精度、低品質な動画（圧縮率23）では89.33%の精度を達成し、低品質設定においても従来のSOTA手法を上回った。
提案されたデータセットにおいて、モデルは99.20%の顔フェイクバイナリ検出（FBD）精度を達成し、マスク予測を用いるとうな99.25%に上昇し、分類性能が非常に優れたことを示した。
低品質な動画における顔フェイク局所化で90.82%のIoUを達成し、ベースラインのXceptionNet（90.40%）および他のSOTA手法を上回った。
アブレーションスタディにより、顔ランドマーク特徴の追加がすべての指標で性能向上をもたらすことが確認され、ランドマークなしのモデルと比較して、FBDで0.32%、局所化精度で0.39%の絶対的向上が得られた。
二重ブランチアーキテクチャと共同学習は、顔タイプ分類（98.67%）やソース分類（98.27%）を含む、すべての評価タスクで単一ブランチモデルを一貫して上回った。
定性的な結果では、改ざん領域の正確な局所化が可能であり、ヒートマップでは予測マスクと正解マスクの重複度が高く、Face2Face編集のような曖昧なケースを除いて良好な一致を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。