QUICK REVIEW

[論文レビュー] Building high-level features using large scale unsupervised learning

Quoc V. Le, Marc’Aurelio Ranzato|arXiv (Cornell University)|Dec 29, 2011

Face recognition and analysis参考文献 39被引用数 179

ひとこと要約

本論文は、1000台のマシンからなるクラスタを用いて1,000万枚のラベルなしYouTube画像を用いて深層自己符号化器を教師なしで訓練し、顔やボディ検出器などの高レベルでクラス特化した特徴をラベルなしで学習することを提案する。モデルはImageNetの22,000クラス分類タスクでトップ1正解率15.8％を達成し、先行研究比で70％の相対的改善を示し、教師なし事前学習のみで複雑な不変性や高レベルの概念が出現可能であることを示している。

ABSTRACT

We consider the problem of building high-level, class-specific feature detectors from only unlabeled data. For example, is it possible to learn a face detector using only unlabeled images? To answer this, we train a 9-layered locally connected sparse autoencoder with pooling and local contrast normalization on a large dataset of images (the model has 1 billion connections, the dataset has 10 million 200x200 pixel images downloaded from the Internet). We train this network using model parallelism and asynchronous SGD on a cluster with 1,000 machines (16,000 cores) for three days. Contrary to what appears to be a widely-held intuition, our experimental results reveal that it is possible to train a face detector without having to label images as containing a face or not. Control experiments show that this feature detector is robust not only to translation but also to scaling and out-of-plane rotation. We also find that the same network is sensitive to other high-level concepts such as cat faces and human bodies. Starting with these learned features, we trained our network to obtain 15.8% accuracy in recognizing 20,000 object categories from ImageNet, a leap of 70% relative improvement over the previous state-of-the-art.

研究の動機と目的

高レベルでクラス特化した特徴検出器が、ラベルなしデータのみから学習可能かどうかを検証し、そのような特化性には監視情報が必要であるという仮定に挑戦すること。
顔や人体のような複雑な視覚的概念を、ラベルなしの例なしに深層ニューラルネットワークで検出可能かどうかを検証すること。
データセットサイズ、モデルの深さ、計算リソースを拡大することで教師なし特徴学習をスケールアップし、低レベル特徴を超える不変性の発見を可能にすること。
大規模なラベルなしデータを用いた教師なし事前学習が、ImageNetの物体認識のような下流の識別タスクの性能を顕著に向上させることを評価すること。

提案手法

YouTube動画の200x200ピクセルの画像1,000万枚を対象に、9層の局所接続型スパース自己符号化器（プーリングおよび局所コントラスト正規化を含む）を訓練した。
1,000台のマシン（16,000コア）のクラスタを用い、モデル並列処理と非同期確率的勾配降下法（SGD）を採用し、10億パラメータに達する規模の学習をスケーリングした。
マシン間通信を削減し、大規模分散学習における効率的なモデル並列処理を可能にするために、局所受容野を用いた。
ImageNetでの微調整に先立ち、教師なし事前学習により階層的特徴を学習した。
数値最適化と可視化を用いて、学習された特徴の選択性および不変性の性質を解釈・検証した。
標準ベンチマークを用いて性能を評価した：顔検出、人体検出、22,000クラスのImageNet分類。

実験結果

リサーチクエスチョン

RQ1顔検出器のような高レベルでクラス特化した特徴検出器が、ボクセルボックスやカテゴリラベルの一切ないラベルなし画像のみから学習可能かどうか。
RQ2自然動画データから学習された教師なし特徴が、平行移動、スケーリング、平面外回転に対してどの程度不変性を示すか。
RQ3同じ教師なし表現が、顔、ネコの顔、人体といった複数の高レベル視覚的概念に感応可能かどうか。
RQ4大規模なラベルなしデータを用いた教師なし事前学習が、ImageNet物体認識のような下流の識別タスクに顕著な改善をもたらすか。
RQ5教師なし特徴が、実世界の認識ベンチマークにおいて、手作業で設計された特徴やランダムベースラインと比較してどの程度優れているか。

主な発見

1000万枚のラベルなしYouTubeフレームのみを用いて、顔検出器を非常に選択的に学習したが、ラベルなしデータの追加は不要であった。
学習された顔検出器は、平行移動、スケーリング、平面外回転に対して頑健であることが示され、複雑な不変性を捉えていることが裏付けられた。
同じネットワークはネコの顔や人体の検出器も学習しており、複数の高レベル視覚的概念への一般化を示した。
ImageNet 22,000クラス分類ベンチマークでは、トップ1正解率15.8％を達成し、前回の最良手法比で70％の相対的改善を示した。
教師なし事前学習アプローチは、ランダム初期化や線形フィルターベースラインを上回り、ネコ検出タスクで74.8％、人体検出タスクで76.7％の正解率を達成した。
結果から、高レベルでクラス特化したニューロン（「おばあちゃんニューロン」仮説にインspired）が、大規模なラベルなしデータに対する教師なし学習から出現可能であることが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。