QUICK REVIEW

[論文レビュー] Supervision-by-Registration: An Unsupervised Approach to Improve the Precision of Facial Landmark Detectors

Xuanyi Dong, Shoou-I Yu|arXiv (Cornell University)|Jul 3, 2018

Face recognition and analysis参考文献 36被引用数 30

ひとこと要約

本稿では、微分可能なルーカス＝カナーデ光流追跡を介して時間的整合性を強制することにより、顔ランドマーク検出器の精度を向上させる非教師付き手法であるSupervision-by-Registration（SBR）を提案する。時間的整合性を保証するための登録損失から勾配を逆伝播することで、SBRは人間のアノテーションを一切必要とせず、動画シーケンスにおけるジターディスプレイを顕著に低減する。

ABSTRACT

In this paper, we present supervision-by-registration, an unsupervised approach to improve the precision of facial landmark detectors on both images and video. Our key observation is that the detections of the same landmark in adjacent frames should be coherent with registration, i.e., optical flow. Interestingly, the coherency of optical flow is a source of supervision that does not require manual labeling, and can be leveraged during detector training. For example, we can enforce in the training loss function that a detected landmark at frame$_{t-1}$ followed by optical flow tracking from frame$_{t-1}$ to frame$_t$ should coincide with the location of the detection at frame$_t$. Essentially, supervision-by-registration augments the training loss function with a registration loss, thus training the detector to have output that is not only close to the annotations in labeled images, but also consistent with registration on large amounts of unlabeled videos. End-to-end training with the registration loss is made possible by a differentiable Lucas-Kanade operation, which computes optical flow registration in the forward pass, and back-propagates gradients that encourage temporal coherency in the detector. The output of our method is a more precise image-based facial landmark detector, which can be applied to single images or video. With supervision-by-registration, we demonstrate (1) improvements in facial landmark detection on both images (300W, ALFW) and video (300VW, Youtube-Celebrities), and (2) significant reduction of jittering in video detections.

研究の動機と目的

顔ランドマーク検出における不正確で一貫性のない人間のアノテーションが検出器の精度を制限し、動画でジターディスプレイを引き起こすという課題に対処すること。
高価で誤りの多い手動アノテーションに依存しない検出器性能の向上手法を開発すること。
大規模なラベルなし動画データを活用して、検出器の汎化性能と時間的安定性を向上させること。
隣接フレーム間の時間的整合性に基づくトレーニング信号を提供し、光流を代理の教師信号として用いること。

提案手法

本手法は、順伝播時に光流に基づくランドマーク追跡を計算する微分可能なルーカス＝カナーデ（LK）レイヤーを導入し、時間的整合性を強制するために勾配を逆伝播する。
登録損失は、現在フレームで直接検出されたランドマークと、前フレームからのLK操作で追跡されたランドマークとのL2距離として定義される。
損失は、光流が前向き・後向き一貫性チェックに合格したランドマークにのみ適用され、信頼性の高い教師信号を保証する。
ラベル付きデータからの標準的监督と、ラベルなし動画からの新しい登録損失を組み合わせた損失関数で、検出器をエンドツーエンドに訓練する。
勾配更新により、検出器は真値に近い検出結果を出力するだけでなく、フレーム間で時間的に整合性のある出力を得ることを促進する。
推論時に後処理や再帰型ネットワークを必要とせず、時間的安定性がトレーニング段階で埋め込まれている。

実験結果

リサーチクエスチョン

RQ1人間のアノテーションを一切必要とせず、顔ランドマーク検出における時間的整合性を自己教師信号として利用できるか？
RQ2光流の一貫性を強制することで、画像および動画両方の検出器精度がどのように向上するか？
RQ3標準的な検出ベースラインと比較して、本手法は動画シーケンスにおけるジターディスプレイをどの程度低減できるか？
RQ4偽ラベルがノイジーまたは誤りである場合、自己訓練法と比較して本手法はどのように性能を発揮するか？

主な発見

SBRは、併記された動画で視覚的にも確認できるように、動画検出におけるジターディスプレイを顕著に低減する。評価指標（NME、AUC）の向上はやや小さいが、実際の動画品質は著しく向上する。
300VWおよびYouTube-Celebritiesの動画ベンチマークにおいて、SBRは人間アノテーションのみで訓練されたベースラインモデルよりも顔ランドマーク検出精度を向上させる。
完璧なアノテーションが与えられた合成データセット「SyntheticFace」において、SBRで訓練されたモデルは、さまざまなノイズレベルにおいてほぼ同一の性能を示し、アノテーションエラーに対して高いロバストネスを示す。
ノイズの多いテストアノテーションで評価した際、SBRモデルは自己訓練ベースラインを上回り、偽ラベルに対するフィードバックが欠如しているため、誤りの蓄積に苦しむ自己訓練法とは対照的である。
アブレーションスタディの結果、追跡されたランドマークからの勾配を無視する（自己訓練と同様）と、YouTube Celebritiesで検出器誤差が4.74 NMEから5.45 NMEに増加する。これは、SBRにおける完全な勾配フィードバックの有効性を確認する。
本手法は、推論時に後処理、光流追跡、再帰型ユニットを一切必要とせず、より優れた汎化性能と安定性を達成する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。