QUICK REVIEW

[論文レビュー] Augmenting Supervised Neural Networks with Unsupervised Objectives for Large-scale Image Classification

Yuting Zhang, Kibok Lee|arXiv (Cornell University)|Jun 21, 2016

Advanced Neural Network Applications参考文献 36被引用数 56

ひとこと要約

この論文は、大規模な教師ありニューラルネットワーク、特に16層のVGGNetに、復元目的関数を追加するデコーダパスを組み込むことで、画像分類性能を向上させる手法を提案する。エンド・ツー・エンドの確率的勾配降下法を用いて分類部とオートエナボーダ部を同時に学習することで、ImageNet上でトップ-1精度が1.66%絶対的に向上し、大規模な設定においても非教師あり目的関数が教師あり学習を効果的にガイドできることを示している。

ABSTRACT

Unsupervised learning and supervised learning are key research topics in deep learning. However, as high-capacity supervised neural networks trained with a large amount of labels have achieved remarkable success in many computer vision tasks, the availability of large-scale labeled images reduced the significance of unsupervised learning. Inspired by the recent trend toward revisiting the importance of unsupervised learning, we investigate joint supervised and unsupervised learning in a large-scale setting by augmenting existing neural networks with decoding pathways for reconstruction. First, we demonstrate that the intermediate activations of pretrained large-scale classification networks preserve almost all the information of input images except a portion of local spatial details. Then, by end-to-end training of the entire augmented architecture with the reconstructive objective, we show improvement of the network performance for supervised tasks. We evaluate several variants of autoencoders, including the recently proposed "what-where" autoencoder that uses the encoder pooling switches, to study the importance of the architecture design. Taking the 16-layer VGGNet trained under the ImageNet ILSVRC 2012 protocol as a strong baseline for image classification, our methods improve the validation-set accuracy by a noticeable margin.

研究の動機と目的

非教師あり再構成目的関数が大規模な教師あり画像分類に与える影響を調査すること。
特にプーリングスイッチ接続を用いるオートエナボーダアーキテクチャの違いが特徴表現の向上に与える効果を評価すること。
高容量ネットワークにおいて、非教師あり事前学習と再構成損失を用いた共同学習のどちらがより優れた一般化性能をもたらすかを特定すること。
性能向上の要因が正則化によるものか、あるいは教師あり目的関数の最適化が改善されたことによるものかを評価すること。

提案手法

事前学習済みの16層VGGNetに、対称的なデコーダパスを追加してスタックドオートエナボーダを構築する。
エンコーダの途中層の活性化を、画像再構成のための潜在表現として使用する。
2種類のオートエナボーダ変種を実装する：固定されたアンプーリングスイッチを使用するもの（SAE）と、学習可能なプーリングスイッチを使用するもの（SWWAE）。
教師あり交差エントロピー損失と非教師あり再構成損失の両方を用いて、エンド・ツー・エンドの確率的勾配降下法で、全体の拡張ネットワークを訓練する。
分類と再構成の両目的を共同で最適化し、非教師あり損失が分類パスに影響を与えるようにする。
標準的なImageNet ILSVRC 2012の指標（検証セットにおけるトップ-1およびトップ-5精度）を用いて性能を評価する。

実験結果

リサーチクエスチョン

RQ1非教師あり再構成目的関数は、大規模な教師あり画像分類ネットワークの性能を向上させることができるか？
RQ2特にプーリングスイッチ接続を用いるオートエナボーダアーキテクチャの違いは、分類ネットワークの性能にどのように影響するか？
RQ3再構成目的関数の導入により、一般化性能が向上するのか、それとも単に教師あり損失の最適化が改善されただけなのか？
RQ4性能向上の要因は正則化によるものか、それとも損失関数の地形においてより良い局所最適解に到達できたためか？

主な発見

SWWAE-allモデルは、ImageNetにおけるVGGNetベースラインと比較して、トップ-1誤差を1.66%、トップ-5誤差を1.01%削減した。
SWWAE-allモデルは、トップ-1精度で1.66%の絶対的向上を達成し、そのうち1.25%（全体の75%）の相対的改善がわずか4エポックで達成された。
オートエナボーダを組み込んだネットワークは、ベースラインより低い訓練誤差を示しており、性能向上が正則化によるものではなく、最適化の改善によるものであることが示された。
SWWAE-allモデルはSAE-allを上回った。これは、プーリングスイッチ接続が性能向上に寄与しているが、性能向上に必須ではないことを示している。
層ごとの再構成損失は、訓練の正則化に効果的であった。SAE/SWWAE-firstでは、訓練誤差は低かったが、検証誤差が高かったため、過学習が生じていた。
事前学習済みネットワークの途中層の活性化は、マックスプーリングによる位置情報の損失を除き、入力情報のほとんどを保持しており、再構成に有効であることが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。