Skip to main content
QUICK REVIEW

[論文レビュー] Unsupervised learning of object frames by dense equivariant image labelling

James Thewlis, Hakan Bilen|arXiv (Cornell University)|Jun 9, 2017
Advanced Image and Video Retrieval Techniques参考文献 49被引用数 64
ひとこと要約

この論文はCNNを訓練して、すべての画像ピクセルを変形に不変な密な、物体中心の座標空間へマッピングし、画像変換または光フローのみを supervison として用いて、関節化・変形可能な物体(例:顔、ロボットアーム)の一貫した物体フレームを教師なしで学習可能にする。

ABSTRACT

One of the key challenges of visual perception is to extract abstract models of 3D objects and object categories from visual measurements, which are affected by complex nuisance factors such as viewpoint, occlusion, motion, and deformations. Starting from the recent idea of viewpoint factorization, we propose a new approach that, given a large number of images of an object and no other supervision, can extract a dense object-centric coordinate frame. This coordinate frame is invariant to deformations of the images and comes with a dense equivariant labelling neural network that can map image pixels to their corresponding object coordinates. We demonstrate the applicability of this method to simple articulated objects and deformable objects such as human faces, learning embeddings from random synthetic transformations or optical flow correspondences, all without any manual supervision.

研究の動機と目的

  • 視点や変形といったノイズ因子を除去することによって、内在的な物体構造の教師なし発見を動機づける。
  • ランドマークベースの視点因子分解を密な、画素ごとの物体座標へ拡張する。
  • 画素を標準的な物体中心空間に割り当てるニューラルラベリング関数を導入する。
  • 等変性と識別性制約を組み合わせて、平凡解を避ける。
  • 顔、質感のある球体、単純な関節物体への適用性を示す。

提案手法

  • 画像ピクセルを低次元の物体中心空間Zへ写像する密な等変ラベリングΦを定式化する(Zは球面と同相である)。
  • 等変性を課す:画像変形gに対してΦ(x, u) = Φ(gx, gu)(座標上のgwarpも同様)
  • 識別性を課して定常的なラベリングを防ぐ。球面上の最大重複基準とΦを一致させる損失などを用いる。
  • 不確実性をR3への埋め込みとして表現し、内積に基づく確率的ソフトマックスを介してソフト対応を可能にする。
  • 三つ組 (x, x′, g) を合成データか真の変形から用いて、対数尤度損失Llogまたは距離ベース損失Ldist(γ頑健)を最適化する。
  • 2つのCNNアーキテクチャ(SIMPLEとDILATIONS)を用いて受容野と文脈を制御し、密な埋め込みを学習する。

実験結果

リサーチクエスチョン

  • RQ1ラベルなし画像から、密な物体中心座標フレームを教師なしで学習できるか?
  • RQ2この密な埋め込みは、同一カテゴリ内の物体内部変形やインスタンス間の変化(例:顔)に対して不変か?
  • RQ3等変性と識別性を組み合わせることは、等変性のみの場合と比べて学習にどう影響するか?
  • RQ4本手法は合成物体から現実世界の物体(人間の顔や猫など)へスケールできるか?
  • RQ5ラベル空間の次元が物体の幾何を捉える上でどう影響するか(例:2D円 vs 3D球の依存性)?

主な発見

  • 密な物体中心座標フレームZを教師なしで学習でき、変形に対して局所的に滑らかなラベル写像を生む。
  • 等変性と識別性の組み合わせは平凡な定数解を防ぎ、意味のある埋め込みを可能にする。
  • 3Dのラベル空間(L=3)を用いた距離ベースの損失Ldistは、いくつかの設定で対数尤度損失Llogより几何的に一貫性のある埋め込みを生む。
  • カプセル中心の局在化は低誤差を達成:Llog=0.97%、γ=1のLdist=1.13%、γ=0.5のLdist=1.14%(画像幅の百分率として)。
  • 腕、質感球、顔、猫で、変形を横断して一貫した物体フレームを得る。難しいケース(顔、AFLW, MAFLデータセット)ではDILATIONSアーキテクチャと距離損失がより良い性能。
  • AFLWでの最近傍/ランドマーク回帰は、unsupervisedからsupervisedへの競合的性能を達成。例:DILATIONS + Ldist、γ=0.5で8.80%誤差、監督ありベースラインと比べて競合。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。