QUICK REVIEW

[論文レビュー] Enhance the Motion Cues for Face Anti-Spoofing using CNN-LSTM Architecture

Xiaoguang Tu, Hengsheng Zhang|arXiv (Cornell University)|Jan 17, 2019

Biometric Identification and Security参考文献 33被引用数 27

ひとこと要約

本稿では、動画シーケンス内の微細な時間的運動痕跡を活用することで、顔の偽造検出性能を向上させるために、Eulerian運動拡大と注目メカニズムを組み込んだCNN-LSTMアーキテクチャを提案する。本手法は、Replay AttackおよびMSU-MFSDデータセットにおいて最先端の性能を達成し、まばたきや頭部の動きといった微細な顔の動的変化を効果的に捉えることで、優れた一般化性能を示している。

ABSTRACT

Spatio-temporal information is very important to capture the discriminative cues between genuine and fake faces from video sequences. To explore such a temporal feature, the fine-grained motions (e.g., eye blinking, mouth movements and head swing) across video frames are very critical. In this paper, we propose a joint CNN-LSTM network for face anti-spoofing, focusing on the motion cues across video frames. We first extract the high discriminative features of video frames using the conventional Convolutional Neural Network (CNN). Then we leverage Long Short-Term Memory (LSTM) with the extracted features as inputs to capture the temporal dynamics in videos. To ensure the fine-grained motions more easily to be perceived in the training process, the eulerian motion magnification is used as the preprocessing to enhance the facial expressions exhibited by individuals, and the attention mechanism is embedded in LSTM to ensure the model learn to focus selectively on the dynamic frames across the video clips. Experiments on Replay Attack and MSU-MFSD databases show that the proposed method yields state-of-the-art performance with better generalization ability compared with several other popular algorithms.

研究の動機と目的

偽装素材や環境条件の変化に起因する顔の偽装検出システムの一般化性能の低さという課題に対処すること。
動画フレーム間での目の瞬き、口の動き、頭部のゆらぎといった微細な運動痕跡を活用して、偽装攻撃の検出を向上させること。
運動拡大と注目メカニズムを統合することで、動的顔領域に注目する能力を向上させること。
CNNとLSTMの特徴学習を混乱損失層でバランスさせることで、過学習を低減し、モデルの頑健性を向上させること。
Replay AttackおよびMSU-MFSDデータセットを含む多様なデータセットにおける一般化性能を示すこと、特にクロスデータベース評価を実施すること。

提案手法

個々の動画フレームから高レベルの空間的特徴を抽出するために、CNNバックボーンを採用する。
抽出されたCNN特徴をLSTMネットワークに供給し、時間的ダイナミクスをモデル化し、連続フレーム間の動きパターンを捉える。
微細な顔の動きをモデルがより明確に捉えられるように、事前処理としてEulerian運動拡大を適用する。
LSTM内に注目メカニズムを統合し、最も判別的な動的情報を含むキーフレームに焦点を当てる。
CNNとLSTMの損失を統合した混乱損失層を導入し、CNNとLSTMの特徴学習のバランスを取ることで、過学習を緩和する。
Replay AttackおよびMSU-MFSDデータセットの公式プロトコルに従い、CNN-LSTMモデルをエンドツーエンドで訓練する。

実験結果

リサーチクエスチョン

RQ1Eulerian運動拡大による運動痕跡の強化は、動画ベースの顔の偽装検出において微細な顔の動きを検出する性能を向上させるか？
RQ2LSTMに注目メカニズムを統合することで、動的特徴が豊富なフレームに注目する能力が向上し、判別性能が向上するか？
RQ3運動拡大と注目メカニズムを備えた統合型CNN-LSTMアーキテクチャは、単独のCNNやLSTMモデルと比較して、データセット間での一般化性能に優れているか？
RQ4混乱損失層は、CNNとLSTMの学習ダイナミクスのバランスを取ることで、訓練の安定性と一般化性能をどの程度向上させるか？
RQ5本手法は、学習セットとは異なるデータベースでテストするようなドメインシフト状況下でも、どの程度の性能を示すか？

主な発見

提案された運動拡大と注目メカニズムを備えたCNN-LSTMは、Replay AttackおよびMSU-MFSD両方のデータセットで最先端の性能を達成した。
Eulerian運動拡大により、微細な顔の動きが強調され、LSTMによる検出が著しく向上した。
注目メカニズムにより、モデルは判別に有用な動的フレームに焦点を当てることができ、本物と偽物の顔の識別性能が向上した。
混乱損失層により、特にデータ量が少ない状況下でも過学習が軽減され、CNNとLSTMの学習ダイナミクスのバランスが取れた。
クロスデータベーステストでは、時間的運動痕跡に依存する本手法が、静的特徴（例：LBP、CNN）に依存する手法よりも優れた一般化性能を示した。
極めて異なるデータベース間（例：Replay AttackからMSU-MFSD）でのテストでは性能低下が観察されたが、本手法は依然としてすべてのベースラインを上回った。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。