QUICK REVIEW

[論文レビュー] Do Deep Nets Really Need to be Deep?

Jimmy Ba, Rich Caruana|arXiv (Cornell University)|Dec 21, 2013

Generative Adversarial Networks and Image Synthesis参考文献 21被引用数 1,480

ひとこと要約

この論文は、知識蒸留を用いて深層モデルを模倣するように訓練することで、浅い順方向型ニューラルネットワークがTIMIT音声認識およびCIFAR-10画像分類において、深層畳み込みニューラルネットワークと同等の性能を達成できることを示している。事前に訓練された深層ネットワークのログイット（ソフトマックス前の値）をターゲットとして用い、浅い学生ネットワークがパラメータ数が少なくても、あるいは同等でも、元の深層モデルと同等またはそれ以上の精度を達成した。これは、高い性能を発揮するためには深さが本質的であるとは限らないことを示唆している。

ABSTRACT

Currently, deep neural networks are the state of the art on problems such as speech recognition and computer vision. In this extended abstract, we show that shallow feed-forward networks can learn the complex functions previously learned by deep nets and achieve accuracies previously only achievable with deep models. Moreover, in some cases the shallow neural nets can learn these deep functions using a total number of parameters similar to the original deep model. We evaluate our method on the TIMIT phoneme recognition task and are able to train shallow fully-connected nets that perform similarly to complex, well-engineered, deep convolutional architectures. Our success in training shallow neural nets to mimic deeper models suggests that there probably exist better algorithms for training shallow feed-forward nets than those currently available.

研究の動機と目的

深層ニューラルネットワークが視覚および音声認識タスクで最先端の性能を達成するために、本当に深さを必要としているのかを調査すること。
浅いネットワークが、従来は深層アーキテクチャに帰属されていた複雑な関数を学習できるのかを特定すること。
蒸留によるモデル圧縮が、浅いネットワークがパラメータ数が同等の深層ネットワークの精度に達成または上回ることを評価すること。
深層ネットワークの性能向上が、アーキテクチャの深さに起因するのか、それともより良いトレーニング手順やインダクティブバイアスに起因するのかを評価すること。

提案手法

標準的なトレーニング手順（交差エントロピー損失を用いて）で、元のラベル付きデータに対して深層ニューラルネットワーク（教師）を訓練する。
訓練済みの深層ネットワークを用いて、ラベルなしデータ上でログイット（ソフトマックス前の値）を生成し、合成トレーニングターゲットを作成する。
L2損失を用いて、浅い全結合順方向型ネットワーク（学生）を深層ネットワークのログイットを回帰するように訓練する。
ハードラベルではなくソフトラベル（ログイット）を用いて知識蒸留を実施することで、より良い一般化性能と細分化された学習が可能になる。
テストセット上で学生ネットワークの性能を、元の深層ネットワークおよび他の浅いベースラインと比較する。
アンサンブルモデルを教師として用いることで、学生の精度を向上させ、蒸留手法のスケーラビリティを示す。

実験結果

リサーチクエスチョン

RQ1浅い順方向型ネットワークは、音声および画像認識タスクにおいて、深層畳み込みニューラルネットワークと同等の性能を達成できるか？
RQ2深層ネットワークの性能優位性は、アーキテクチャの深さに起因するのか、それともより良いインダクティブバイアスやトレーニング手順に起因するのか？
RQ3深層教師モデルからの知識蒸留により、浅い学生ネットワークが、パラメータ数が少なくても、あるいは同等でも、教師モデルの精度に達成または上回ることができるか？
RQ4浅いネットワークには根本的な表現能力の限界があるのか、それとも主に最適化や正則化の問題がボトルネックとなっているのか？
RQ5ラベルなしデータの可用性や、より高い精度の教師モデルがあると、浅い学生モデルの性能はどの程度向上するのか？

主な発見

深層モデルを模倣するように訓練された浅い順方向型ネットワークは、TIMITおよびCIFAR-10の両方で、最先端の深層畳み込みニューラルネットワークと同等のテスト精度を達成した。
TIMITでは、160Kパラメータを持つ浅いネットワーク（SNN-MIMIC-160K）が、10倍のパラメータ数を持つより深いモデルと同等の性能を示した。これは、高精度を達成するためには深さが本質的ではないことを示している。
アンサンブルモデルを教師として用いることで教師の精度を向上させたところ、学生モデルの性能も比例的に向上した。これは、学生の能力が制限要因ではないことを示している。
深層モデルよりも多くのパラメータを有するにもかかわらず、浅いモラルネットワークは、深層モデルの6〜12倍速く学習が完了した（GPU上で1〜2時間対8〜12時間）。
直接訓練された浅いネットワークと、モラル訓練された浅いネットワークの間には顕著な性能差が認められ、現在の学習アルゴリズムが、元のデータ上で浅いネットワークを直接学習させることに苦労していることが示された。
パラメータ数が深層モデルと同等の浅いモデルが、蒸留によって訓練された場合、同程度の精度に達成できる。これは、深層ネットワークが学習する関数が本質的に深さを必要としているわけではないことを示唆している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。