[論文レビュー] Occlusion Coherence: Detecting and Localizing Occluded Faces
本稿では、顔の部分的隠蔽における隠蔽の一貫性を明示的にモデル化する階層的可変部分モデルを提案する。合成隠蔽データを用いることで、部分的隠蔽下での検出およびランドマーク局所化の性能が向上する。モデルは隠蔽パターンの空間的一致性を強制することで、部分的隠蔽下の顔検出ベンチマークで最先端の性能を達成し、標準的部品モデルおよび回帰ベース手法を上回る。
The presence of occluders significantly impacts object recognition accuracy. However, occlusion is typically treated as an unstructured source of noise and explicit models for occluders have lagged behind those for object appearance and shape. In this paper we describe a hierarchical deformable part model for face detection and landmark localization that explicitly models part occlusion. The proposed model structure makes it possible to augment positive training data with large numbers of synthetically occluded instances. This allows us to easily incorporate the statistics of occlusion patterns in a discriminatively trained model. We test the model on several benchmarks for landmark localization and detection including challenging new data sets featuring significant occlusion. We find that the addition of an explicit occlusion model yields a detection system that outperforms existing approaches for occluded instances while maintaining competitive accuracy in detection and landmark localization for unoccluded instances.
研究の動機と目的
- 既存の部品モデルが部分的隠蔽を処理する際の限界を解消するため、隠蔽を構造的で一貫性のある現象としてモデル化し、無構造的ノイズとは異なる扱い方をすること。
- サングラス、髪、人物などの遮蔽物が顔の部位を覆う実世界の状況において、ランドマーク局所化および顔検出の精度を向上させること。
- 実世界の隠蔽顔データの不足を補うために、モデル内の構造的仮定に基づき、合成的に隠蔽されたインスタンスを生成することで、トレーニングデータを拡張すること。
- 隣接する部品間の相関する隠蔽パターンをモデル化することで、単に検出を行うだけでなく、どのランドマークが隠蔽されているかを正確に予測できるようにすること。
- 部分的隠蔽に対して顕著に向上した頑健性を示しながらも、未隠蔽顔においても競争力のある性能を維持し、事前の検出ステップに依存しないこと。
提案手法
- グローバルな顔の部位とローカルなランドマーク特徴の二層構造を持つ階層的可変部分モデル(HPM)を提案し、コンactかつ判別的な表現を可能にする。
- 隣接するランドマーク間で空間的一致性を保つように、少数の一貫性のあるパターンから選択された部品固有の隠蔽状態を組み込む(例:あごが隠蔽されている場合、口もより多く隠蔽されている可能性が高い)。
- モデルの構造的制約を用いて部分を合成的に隠蔽することで、画像全体の合成を避け、効率的なデータ拡張を実現する仮想トレーニングデータを生成する。
- 潜在的な隠蔽状態に依存する判別的トレーニング損失を用いることで、現実的で妥当な隠蔽パターンを持つネガティブ例からも学習可能にする。
- 動的プログラミングを用いて推論を実行し、階層的制約下で部品の位置と隠蔽状態を同時に最適化する。
- マルチスケール検出フレームワークにモデルを統合することで、小さく部分的にしか見えない顔の検出性能を向上させる。
実験結果
リサーチクエスチョン
- RQ1隣接する部位が一緒に隠蔽されやすいという隠蔽の一貫性をモデル化することで、隠蔽顔における検出および局所化性能が向上するか?
- RQ2構造的隠蔽パターンに基づく合成データ拡張は、リソースが限られた隠蔽状況において、実データのみを用いる場合よりも一般化性能が向上するか?
- RQ3明示的な隠蔽状態を備えた部品ベースモデルは、特に隠蔽状況下で、エンドツーエンドの回帰手法を上回るランドマーク局所化精度を達成できるか?
- RQ4標準的可変部分モデルと比較して、モデルの階層的構造が初期化の感度や部分的隠蔽に対する頑健性をどの程度向上させるか?
- RQ5独立した隠蔽モデルと比較して、本モデルはより高い精度でどのランドマークが隠蔽されているかを予測できるか?また、そのような予測は、識別などの下流タスクにどのように寄与するか?
主な発見
- 提案された階層的部品モデル(HPM)は、UCI-OFDデータセットの隠蔽サブセットにおいて、標準的DPMおよびCascade DPMを大きく上回り、隠蔽顔の精度と再現率の両方が向上した。
- COFWベンチマークにおいて、HPMは隠蔽顔のランドマーク局所化精度で最先端の性能を達成し、RCPRやDCNNベースのモデルと比較して隠蔽に対する頑健性が優れている。
- 未隠蔽顔においても、IBUGデータセットでポーズ回帰手法と同等のランドマーク局所化精度を達成し、競争力のある性能を維持した。
- 隣接するランドマーク間の隠蔽の一貫性を強制することで、独立した隠蔽モデルと比較して、隠蔽状態の予測精度が向上していることが示された。
- 標準的なカスケード検出器が見逃す多くの重度の隠蔽顔を検出できており、重なった顔が多数存在する複雑なシーンでも頑健であることが示された。
- フィードフォワード回帰モデル(例:RCPR)と比較して約100倍遅いものの、GPU加速に適しており、実行時間の最適化が可能であると示唆された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。