QUICK REVIEW

[論文レビュー] ProjectionNet: Learning Efficient On-Device Deep Networks Using Neural Projections

Sujith Ravi|arXiv (Cornell University)|Aug 2, 2017

Advanced Neural Network Applications参考文献 25被引用数 43

ひとこと要約

ProjectionNetは、大規模で高精度な深層ニューラルネットワークを、ランダムな投影を用いて低ビット表現にマッピングするニューラルプロジェクションを通じて、コンパクトで効率的なモデルに蒸留する共同学習フレームワークを導入した。この手法は、記憶容量と計算量を著しく削減しながら高い精度を達成し、CIFAR-100においてはたった720ビットで、フルネットワークの90％以上の性能を維持できることを示した。

ABSTRACT

Deep neural networks have become ubiquitous for applications related to visual recognition and language understanding tasks. However, it is often prohibitive to use typical neural networks on devices like mobile phones or smart watches since the model sizes are huge and cannot fit in the limited memory available on such devices. While these devices could make use of machine learning models running on high-performance data centers with CPUs or GPUs, this is not feasible for many applications because data can be privacy sensitive and inference needs to be performed directly "on" device. We introduce a new architecture for training compact neural networks using a joint optimization framework. At its core lies a novel objective that jointly trains using two different types of networks--a full trainer neural network (using existing architectures like Feed-forward NNs or LSTM RNNs) combined with a simpler "projection" network that leverages random projections to transform inputs or intermediate representations into bits. The simpler network encodes lightweight and efficient-to-compute operations in bit space with a low memory footprint. The two networks are trained jointly using backpropagation, where the projection network learns from the full network similar to apprenticeship learning. Once trained, the smaller network can be used directly for inference at low memory and computation cost. We demonstrate the effectiveness of the new approach at significantly shrinking the memory requirements of different types of neural networks while preserving good accuracy on visual recognition and text classification tasks. We also study the question "how many neural bits are required to solve a given task?" using the new framework and show empirical results contrasting model predictive capacity (in bits) versus accuracy on several datasets.

研究の動機と目的

スマートフォンやスマートウォッチのようなメモリ制約のあるデバイスへの大規模なディープニューラルネットワークの展開という課題に対処すること。
モデル精度を低下させる可能性がある、トレーニング後の圧縮技術の限界を乗り越えること。
フルで高性能なネットワークを模倣する軽量なプロジェクションネットワークを共同最適化することで訓練するフレームワークを開発すること。
ディープネットワークの予測能力を保持するために必要な最小限のニューラルビット数を特定すること。
プロジェクションを用いたアーリントシップスタイルの訓練により、コンパクトなモデルを学習することで、効率的で低メモリな推論を実現すること。

提案手法

高容量なフルニューラルネットワーク（例：フィードフォワード型またはRNN）を「トレーナー」として用い、それを小規模で軽量な「プロジェクション」ネットワークが監視する。
局所性に敏感なハッシュ（LSH）に基づくランダムプロジェクションを用い、入力または隠れ表現をバイナリーベクトル（ニューラルビット）に変換する。
バックプロパゲーションを用いて両ネットワークを共同で訓練し、プロジェクションネットワークがトレーナーネットワークの出力を模倣するように学習させる。
予測精度（正解ラベルとの一致）と隣接するトレーナー予測との一貫性の両方を最適化するための組み合わせ損失関数を用いてプロジェクションネットワークを最適化する。
プロジェクションネットワークを離散的・ビットレベルのモデルとして表現し、最小限のメモリと計算量で超効率的な推論を可能にする。
グラフ構造の損失関数を用いて、トレーナーとプロジェクションの両方のグラフをエンドツーエンドで学習することで、構造的予測タスクへのフレームワークの拡張を実現する。

実験結果

リサーチクエスチョン

RQ1与えられたタスクに対して、フルディープニューラルネットワークの予測能力を捉えるために必要なニューラルビット数はどれほどか？
RQ2共同最適化により訓練された軽量プロジェクションネットワークは、メモリ使用量を数個のオーダー以上に削減しながら、フルネットワークと同等の精度を達成できるか？
RQ3ランダムプロジェクションは、低次元のビット空間において、ディープネットワークの活性化の表現力をどれほど保持できるか？
RQ4このフレームワークは、視覚やテキスト分類を含むさまざまなアーキテクチャとタスクに、どの程度一般化できるか？
RQ5構造的損失関数を用いた半教師あり学習やグラフ構造の学習設定に、このプロジェクションフレームワークを拡張できるか？

主な発見

MNISTでは100ビットのProjectionNetが、3層のフィードフォワードネットワークの約80％の精度を達成しており、高い効率性を示している。
CIFAR-100では720ビットのProjectionNetが、フルネットワークの90％を超える予測性能を回復しており、極めて少ないビット数で強力な表現能力を有していることが示された。
CIFAR-100では120ビットから720ビットの間で予測比が急激に上昇しており、効果的な表現のための臨界閾値があることが示唆された。
共同学習フレームワークにより、エンドツーエンド最適化が可能となり、モデルの精度を保持しながらモデルサイズを顕著に削減できる。
このアプローチは柔軟なモデルサイズ調整を可能にし、グラフベースや半教師あり学習を含むさまざまなネットワークアーキテクチャと学習設定に適応可能である。
このフレームワークにより、低メモリ・低計算コストのデバイス内推論が可能となり、プライバシーに配慮した、接続性が制限された環境に適している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。