Skip to main content
QUICK REVIEW

[論文レビュー] Transferring Landmark Annotations for Cross-Dataset Face Alignment

Shizhan Zhu, Cheng Li|arXiv (Cornell University)|Sep 2, 2014
Face recognition and analysis参考文献 23被引用数 22
ひとこと要約

本論文は、異なるアノテーションプロトコルを持つ顔アライメントデータセット間でランドマークアノテーションを転送するための伝達的カスケード回帰手法を提案する。これにより、多様なデータセットの有効な統合が可能となり、顔アライメント性能が向上する。共通する意味的ランドマーク(例:目頭・目尻、口角)を活用することで、ソースデータセットの密集したアノテーションをターゲットデータセットに転送し、クロスデータセットおよび未知ドメインの顔アライメント性能を顕著に向上させる。クロスワールドベースラインと比較して平均16.6%の向上を達成し、ナードな統合手法と比較して11.4%の向上を示した。

ABSTRACT

Dataset bias is a well known problem in object recognition domain. This issue, nonetheless, is rarely explored in face alignment research. In this study, we show that dataset plays an integral part of face alignment performance. Specifically, owing to face alignment dataset bias, training on one database and testing on another or unseen domain would lead to poor performance. Creating an unbiased dataset through combining various existing databases, however, is non-trivial as one has to exhaustively re-label the landmarks for standardisation. In this work, we propose a simple and yet effective method to bridge the disparate annotation spaces between databases, making datasets fusion possible. We show extensive results on combining various popular databases (LFW, AFLW, LFPW, HELEN) for improved cross-dataset and unseen data alignment.

研究の動機と目的

  • 顔アライメントにおけるデータセットバイアスを解消する。特に、分布やアノテーションの違いにより、あるデータセットで学習したモデルが他のデータセットでは性能を発揮しない問題を対処する。
  • 従来、膨大な手作業再ラベル付けを要する、互換性のないランドマークアノテーションプロトコルを持つデータセットの統合を克服する。
  • LFW、AFLW、LFPW、HELENなどの顔アライメントデータセットを、アノテーション空間の自動標準化により統合可能にする。
  • 多様なトレーニングデータを活用することで、オクルージョンや困難なポーズを持つ未知ドメインにおけるモデルの一般化性能を向上させる。
  • LFWに密な68点および194点アノテーションをアノテーション転送により提供し、今後の研究における利用価値を高める。

提案手法

  • 異なるデータセット間で一貫した定義を持つ共通する意味的ランドマーク(例:目頭・目尻、口角、瞳孔中心)を特定する。
  • これらの共有ランドマークをアライメントのアンカーとして用い、伝達的アライメントプロセスにより、ソースとターゲットデータセット間の幾何的対応関係を確立する。
  • 形状回帰とアノテーション転送を同時に最適化するカスケード回帰フレームワーク(TCR)を適用し、ソースデータセットの密集したアノテーションを用いてターゲットドメインへのフィッティングをガイドする。
  • ソースとターゲットデータを同時に学習する伝達的学習を実施し、共有ランドマーク制約を用いてソースアノテーションをターゲットドメインに転送する。
  • カスケード回帰における形状依存特徴と反復的精錬を活用し、ターゲットデータセットにおけるランドマーク局所化精度を向上させる。
  • 転送されたアノテーションを活用してスパースなターゲットデータセットを豊かにし、手作業再ラベル付けを伴わずに高品質な密集アノテーションをターゲットドメインに実現する。

実験結果

リサーチクエスチョン

  • RQ1手作業再ラベル付けを伴わずに、多様な顔アライメントデータセット間のアノテーション空間を標準化できるか?
  • RQ2異なるアノテーションプロトコルを持つターゲットデータセットにおいて、ソースデータセットの密集アノテーションを転送することで、性能がどの程度向上するか?
  • RQ3提案手法によるアノテーション転送を用いてトレーニングデータを統合した場合、モデルの一般化性能はどの程度向上するか?
  • RQ4LFW + AFLW などの複数データセットを統合して学習したモデルが、クロスデータセットおよび未知ドメイン評価において、個別データセットで学習したモデルを上回る性能を示せるか?
  • RQ5COFWのようなオクルージョンが顕著な困難なデータセットに対しても、COFW自体のトレーニングデータを一切使用せずに、本手法が効果的に転送可能か?

主な発見

  • 提案された伝達的カスケード回帰(TCR)手法は、1つのデータセットで学習し、別のデータセットでテストする際、『クローズドワールド』ベースライン(SDM)と比較して平均16.6%の性能向上を達成した。
  • ナードなトレーニングセット統合手法と比較して、平均11.4%の性能向上を示し、アノテーション空間の標準化の有効性を裏付けた。
  • 重度のオクルージョンを伴うCOFWデータセットにおいて、COFW自体のデータを一切使用しないでLFWとAFLWで学習したTCRモデルが、COFWで学習したモデルを上回る性能を示した。これは、優れた一般化性能を示している。
  • TCR手法は、深刻なオクルージョンや非正面ポーズを伴う困難な未知ドメインにおいても、最先端の結果を達成した。
  • 本手法により、従来5点アノテーションしか存在しなかったLFWデータセットに、密な68点および194点アノテーションが効果的に転送され、アノテーション品質が顕著に向上した。
  • 異なるソース・ターゲットの組み合わせにおいて、相対的な改善率は8%から39%の範囲にあり、特にHELENからLFWおよびLFPWへの転送で最大の向上が観察された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。