QUICK REVIEW

[論文レビュー] Walk and Learn: Facial Attribute Representation Learning from Egocentric Video and Contextual Data

Jing Wang, Yu Cheng|arXiv (Cornell University)|Apr 21, 2016

Face recognition and analysis参考文献 51被引用数 21

ひとこと要約

本論文は、エゴセントリック動画と文脈的情報（場所と天候）から、高価な手動アノテーションを必要としない、豊富な顔貌特徴表現を学ぶ自己教師あり深層学習フレームワークを提案する。500万件の顔画像ペアを、多様な都市環境で追跡された同一アイデンティティから取得し、アイデンティティの一貫性と文脈予測を同時に最適化することで、手動ラベル付きアイデンティティデータでの事前学習なしで、顔貌特徴分類において最先端の性能を達成した。

ABSTRACT

The way people look in terms of facial attributes (ethnicity, hair color, facial hair, etc.) and the clothes or accessories they wear (sunglasses, hat, hoodies, etc.) is highly dependent on geo-location and weather condition, respectively. This work explores, for the first time, the use of this contextual information, as people with wearable cameras walk across different neighborhoods of a city, in order to learn a rich feature representation for facial attribute classification, without the costly manual annotation required by previous methods. By tracking the faces of casual walkers on more than 40 hours of egocentric video, we are able to cover tens of thousands of different identities and automatically extract nearly 5 million pairs of images connected by or from different face tracks, along with their weather and location context, under pose and lighting variations. These image pairs are then fed into a deep network that preserves similarity of images connected by the same track, in order to capture identity-related attribute features, and optimizes for location and weather prediction to capture additional facial attribute features. Finally, the network is fine-tuned with manually annotated samples. We perform an extensive experimental analysis on wearable data and two standard benchmark datasets based on web images (LFWA and CelebA). Our method outperforms by a large margin a network trained from scratch. Moreover, even without using manually annotated identity labels for pre-training as in previous methods, our approach achieves results that are better than the state of the art.

研究の動機と目的

文脈的情報からの弱教師あり学習を活用することで、顔貌特徴学習における手動アノテーションの高コストを低減すること。
環境的文脈を用いて、アイデンティティ関連特徴（例：眼鏡、帽子）を超えた顔貌特徴表現学習を改善すること。
ウェアラブルカメラが捉えた現実世界の都市環境における顔貌の多様性を活用すること。
アイデンティティラベル付きデータセットに依存しない、下流の顔貌特徴分類を向上させる事前学習戦略を開発すること。
文脈的監視（場所と天候）が、アイデンティティ事前学習のみに比べて優れた特徴表現を生み出せることを示すこと。

提案手法

40時間を超えるエゴセントリック動画を処理し、顔のランドマーク検出を用いて一般の歩行者の顔を追跡する。
追跡の整合性に基づいて顔画像ペアを生成する：同一トラックのペアはポジティブ、異なるトラックのペアはネガティブとする。
シアン型深層ネットワークとコントラスト損失を用い、同一トラックペア間の距離を最小化することでアイデンティティ関連特徴を保持する。
同じネットワークを、地理的場所と天候状況の予測にも同時に訓練することで、文脈的特徴を埋め込み空間に組み込む。
得られた特徴表現を、少量の手動アノテート済み顔貌特徴ラベルを用いて微調整する。
アイデンティティの一貫性と文脈予測を組み合わせたマルチタスク学習目的関数を用い、分離可能で強固な特徴を学習する。

実験結果

リサーチクエスチョン

RQ1地理的場所や天候といった文脈的情報が、手動アノテーションなしで顔貌特徴表現を学ぶための弱教師あり情報として機能するか？
RQ2アイデンティティの一貫性と文脈予測の共同学習が、アイデンティティ事前学習を上回る顔貌特徴分類性能をもたらすか？
RQ3アイデンティティラベルなしでエゴセントリック動画データから学習したモデルが、LFWA や CelebA といった標準ベンチマークに一般化可能か？
RQ4学習された特徴が、どの種類の顔貌特徴（アイデンティティ関連 vs. 非アイデンティティ関連）を効果的に捉えられるか？
RQ5アイデンティティラベル付き大規模データセットで事前学習されたモデルと比較して、学習された特徴はどのように異なるか？

主な発見

本手法は、顔貌特徴分類において、事前学習なしで訓練したネットワークを上回ることを示し、自己教師あり事前学習の有効性を実証した。
手動アノテート済みアイデンティティラベルを事前学習に使用しなくても、標準ベンチマークで最先端の性能を達成した。
レース固有の顔貌特徴に注目したニューロン活性化可視化により、場所ベースの監視によって人種に関する強い事前知識が学習されていることが示された。
天候ベースの事前学習により、サングラスや帽子といったアイデンティティ非関連属性が捉えられ、可視化されたニューロンが局所的顔部を強調している。
アイデンティティと文脈の共同最適化により、ポーズ、照明、表情の変化に対してより強固な特徴が得られ、その有効性が裏付けられた。
最小限の手動アノテーションでの微調整により優れた性能が得られたことから、自己教師あり特徴学習の質の高さが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。