QUICK REVIEW

[論文レビュー] Self-supervised learning of a facial attribute embedding from video

Olivia Wiles, A. Sophia Koepke|arXiv (Cornell University)|Aug 21, 2018

Face recognition and analysis参考文献 65被引用数 97

ひとこと要約

FAb-Net は、動画フレーム上の自己教師付きのフレーム変換によって顔属性の低次元埋め込みを学習し、ポーズ・ランドマーク・表情タスクを線形分類器で可能にする。監督あり手法にしばしば競合する。

ABSTRACT

We propose a self-supervised framework for learning facial attributes by simply watching videos of a human face speaking, laughing, and moving over time. To perform this task, we introduce a network, Facial Attributes-Net (FAb-Net), that is trained to embed multiple frames from the same video face-track into a common low-dimensional space. With this approach, we make three contributions: first, we show that the network can leverage information from multiple source frames by predicting confidence/attention masks for each frame; second, we demonstrate that using a curriculum learning regime improves the learned embedding; finally, we demonstrate that the network learns a meaningful face embedding that encodes information about head pose, facial landmarks and facial expression, i.e. facial attributes, without having been supervised with any labelled data. We are comparable or superior to state-of-the-art self-supervised methods on these tasks and approach the performance of supervised methods.

研究の動機と目的

ラベルなしデータなしで顔属性表現を学習させる動機づけ。
視点/表情を横断する単一IDの動画を活用して共通埋め込みを構築する。
埋め込み上の線形層でランドマーク、ポーズ、表情を予測できることを示す。
埋め込みを改善するための複数フレーム源とカリキュラム学習の利点を示す。
顔属性に基づく画像検索の応用を示す。

提案手法

FAb-Net を訓練してソースフレームとターゲットフレームを 256 次元ベクトルに埋め込む。
ソースとターゲットの埋め込みを連結して、ソースをターゲットへマッピングするフロー場をデコーダで予測する。
生成フレームとターゲットフレームとの L1 損失を用いて、埋め込みがポーズ/表情を捉えるように強制する。
マルチソース設定では、フレームごとの信頼度ヒートマップを予測し、再構成時の寄与を加重する。
訓練損失のパーセンタイルで組織化されたバッチを選択することにより、難易度を段階的に高めるカリキュラム学習を導入する。
外部データセット上でランドマーク回帰、頭部ポーズ回帰、表情分類の線形層を訓練して埋め込みを評価する。

実験結果

リサーチクエスチョン

RQ1動画から学習した自己教師付き埋め込みが、ラベルなしでポーズ・ランドマーク・表情などの顔属性を捉えるか。
RQ2複数ソースフレームとカリキュラム学習は顔属性埋め込みの質を向上させるか。
RQ3学習した埋め込みは外部データセットで単純な線形プローブで下流タスクへ転用可能か。
RQ4埋め込みは訓練データを超えたタスク、例: 顔属性による画像検索をサポートできるか。

主な発見

学習された埋め込みは、監視なしで頭部ポーズ、ランドマーク、表情などの顔属性を符号化する。
複数ソースフレームと信頼度マップを追加すると埋め込み品質が向上する。
カリキュラム学習は標準的な訓練より性能を高める。埋め込みは、いくつかの設定でポーズとランドマークタスクに対して監督付き手法に近づき、表情認識にも競争力がある。
外部データセット上の線形プローブは、 VoxCeleb+ から CelebA/AffectNet/EmotioNet へのドメインシフトにも関わらず、ランドマーク、ポーズ、表情で競争力のある結果を達成する。
埋め込みはコサイン類似度を用いた識別への画像検索を可能にし、アイデンティティや装飾ではなく類似したポーズ/表情を持つ画像を取得する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。