Skip to main content
QUICK REVIEW

[論文レビュー] Weakly-Supervised Attention and Relation Learning for Facial Action Unit Detection

Zhiwen Shao, Zhilei Liu|arXiv (Cornell University)|Aug 10, 2018
Emotion and Mood Recognition被引用数 2
ひとこと要約

本論文は、顔の動作単位(AU)検出のためのエンドツーエンド弱教師付き深層学習フレームワークを提案する。このフレームワークは、チャネル別および空間的アテンション機構と、AUs間のピクセルレベルの関係を同時に学習することで、ボクシングボックスやヒートマップに依存せずに、AUに特化した特徴抽出を適応的に行える。本手法は、BP4D、DISFA、FERA 2015、BP4D+ベンチマークにおいて、オクルージョンや大きなポーズ変化が生じる状況下でも、AU検出および強度推定の両面で最先端の性能を達成している。

ABSTRACT

Attention mechanism has recently attracted increasing attentions in the field of facial action unit (AU) detection. By finding the region of interest of each AU with the attention mechanism, AU-related local features can be captured. Most of the existing attention based AU detection works use prior knowledge to predefine fixed attentions or refine the predefined attentions within a small range, which limits their capacity to model various AUs. In this paper, we propose an end-to-end deep learning based attention and relation learning framework for AU detection with only AU labels, which has not been explored before. In particular, multi-scale features shared by each AU are learned firstly, and then both channel-wise and spatial attentions are adaptively learned to select and extract AU-related local features. Moreover, pixel-level relations for AUs are further captured to refine spatial attentions so as to extract more relevant local features. Without changing the network architecture, our framework can be easily extended for AU intensity estimation. Extensive experiments show that our framework (i) soundly outperforms the state-of-the-art methods for both AU detection and AU intensity estimation on the challenging BP4D, DISFA, FERA 2015 and BP4D+ benchmarks, (ii) can adaptively capture the correlated regions of each AU, and (iii) also works well under severe occlusions and large poses.

研究の動機と目的

  • 従来のアテンションベースのAU検出手法が固定または限定的に精錬されたアテンションマップに依存するという限界を解消すること。
  • ボクシングボックスやヒートマップを必要とせず、AUレベルのラベルのみで、アテンションとAUs間の相互関係をエンドツーエンドで学習すること。
  • チャネル別および空間的アテンションをピクセルレベルのAU関係と統合することで、特徴の関連性を向上させ、検出のロバスト性を強化すること。
  • ネットワークアーキテクチャを変更せずに、AU強度推定にフレームワークを拡張すること。
  • オクルージョンや大きなヘッドポーズといった困難な条件下でも優れた性能を発揮すること。

提案手法

  • まず、共有バックボーンネットワークを用いて入力画像からマルチスケール特徴を抽出する。
  • チャネル別および空間的アテンション機構を同時に学習し、特徴マップ内のAU関連特徴を適応的に強調する。
  • AUs間のピクセルレベルの関係をモデル化することで、空間的アテンションマップを精緻化し、関連する顔領域の局在化を向上させる。
  • アテンション学習はエンドツーエンド微分可能であり、AUのバイナリラベルのみで訓練される。
  • 同じフレームワークを、ネットワークアーキテクチャを変更せずに最終の回帰ヘッドを変更することで、AU強度推定に拡張する。
  • 自己アテンションメカニズムを活用して、弱教師付き設定で長距離依存性とAUs間相関を捉える。

実験結果

リサーチクエスチョン

  • RQ1ボクシングボックスやヒートマップの監視なしに、弱教師付きフレームワークがアテンションとAUs間の関係を同時に学習し、AU検出を向上させることができるか?
  • RQ2提案手法のアテンションおよび関係学習メカニズムは、固定または事前定義されたアテンションマップと比較して、AUに特化した関連する顔領域をどれほど効果的に捉えられるか?
  • RQ3ピクセルレベルのAU関係を統合することで、空間的アテンションと検出精度はどの程度向上するか?
  • RQ4同じフレームワークを、アーキテクチャの変更なしにAU強度推定に効果的に適用できるか?
  • RQ5重度のオクルージョンや大きなヘッドポーズといった困難な条件下でも、本手法のロバスト性はどの程度か?

主な発見

  • 提案手法は、BP4D、DISFA、FERA 2015、BP4D+ベンチマークにおいて、AU検出およびAU強度推定の両方で最先端の性能を達成している。
  • モデルはAUに特化した顔領域を適応的に強調するアテンションマップを学習しており、先行手法と比較して局在化能力が向上している。
  • ピクセルレベルの関係の統合により、空間的アテンションが顕著に向上し、より関連性の高い特徴抽出が実現された。
  • 大きなポーズ変化や重度のオクルージョン下でも、フレームワークは良好に一般化し、強い性能を維持している。
  • 全テストデータセットにわたり一貫した改善が得られ、本手法のロバスト性と一般化能力が確認された。
  • アーキテクチャの変更なしにAU強度推定にフレームワークを拡張でき、高い性能を維持している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。