QUICK REVIEW

[論文レビュー] Unsupervised Learning by Predicting Noise

Piotr Bojanowski, Armand Joulin|arXiv (Cornell University)|Apr 18, 2017

Advanced Neural Network Applications被引用数 129

ひとこと要約

本論文は Noise As Targets (NAT) を導入し、特徴を固定のランダムなターゲットベクトルへマッピングすることで、エンドツーエンドに convnets を学習する教師なしフレームワークを提案する。ImageNet のような大規模データセットでスケーラブルな学習を可能にする。最先端の教師なし手法と競争力のある転移性能を達成する。

ABSTRACT

Convolutional neural networks provide visual features that perform remarkably well in many computer vision applications. However, training these networks requires significant amounts of supervision. This paper introduces a generic framework to train deep networks, end-to-end, with no supervision. We propose to fix a set of target representations, called Noise As Targets (NAT), and to constrain the deep features to align to them. This domain agnostic approach avoids the standard unsupervised learning issues of trivial solutions and collapsing of features. Thanks to a stochastic batch reassignment strategy and a separable square loss function, it scales to millions of images. The proposed approach produces representations that perform on par with state-of-the-art unsupervised methods on ImageNet and Pascal VOC.

研究の動機と目的

人間の注釈から得られるバイアスを避けるため、ラベルなしでリッチな視覚的特徴を学習させる動機づけ。
特徴の崩壊を避けることを前提とした、スケーラブルでエンドツーエンドの識別フレームワークを提案。
固定されたランダムターゲット表現とスケーラブルな割り当て機構を導入。
NAT が最先端の教師なし法と同等の転送可能な特徴を生み出すことを示す。

提案手法

画像から単位正規化された特徴への写像 f_theta を定義し、固定ターゲット表現とともに theta を jointly optimize する。
k 個のターゲットベクトルを固定してターゲット行列 C を形成し、P の 1-to-1 制約の下で画像をターゲットへ割り当てる。
f_theta(X) と Y=PC との間の平方損失を用い、P は崩壊を防ぐためオンラインで更新される。
NAT ターゲットは特徴空間の分布を近似するように、単位球上から一様にサンプリングして選ぶ。
スケーラビリティを確保するため、SGD でオンラインの Hungarian ベースの割り当てをバッチ部分行列に制限して最適化する。
教師なし信号の品質を向上させるため、入力を画像勾配と標準的な拡張で前処理する。

実験結果

リサーチクエスチョン

RQ1識別的で非生成的な教師なし目的が転送可能な視覚特徴を生み出せるか。
RQ2ターゲット表現を固定しオンラインで再割り当てすることで、特徴崩壊を防ぎつつ大規模データセットへのスケーラビリティを保てるか。
RQ3異なるターゲット表現と更新頻度が学習表現と転移性能にどう影響するか。
RQ4NAT による特徴が ImageNet および PASCAL VOC で他の教師なし・自己教師付き手法と競合するか。

主な発見

Method	Acc@1
Random	12.0
SIFT+FV	55.6
Wang & Gupta (2015)	29.8
Doersch et al. (2015)	30.4
Zhang et al. (2016)	35.2
Noroozi & Favaro (2016)	38.1
BiGAN (Donahue et al., 2016)	32.2
NAT (this work)	36.0

NAT は ImageNet で転移性能が最先端の教師なしおよび自己教師付きアプローチと同等である。
単位正規化された特徴に対する平方損失での学習は、この設定では softmax 損失と同様の性能を示す。
ImageNet 転移において、離散的な基底のようなターゲットは連続的 NAT ターゲットより性能が劣る。
ターゲット割り当てを数エポックごとに更新することで、性能と計算の良いトレードオフが得られる。
NAT の特徴は、監視付き特徴に似た有意な構造とエッジを視覚的に捉え、シャープさには一部差異がある。
Pascal VOC 2007 では NAT は標準的なオートエンコーダや GAN ベースラインを上回り、BiGAN と競合し、自己教師付き法にも近づいている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。