[論文レビュー] Training Neural Networks with Local Error Signals
この論文は、局所予測損失と類似性照合損失を組み合わせた層ごとの局所損失信号が、複数の画像データセットでグローバルなバックプロパゲーションに近づくか同等になること、バックプロパゲフリーな変種が従来の生物学的に妥当な方法を上回ることを示しています。
Supervised training of neural networks for classification is typically performed with a global loss function. The loss function provides a gradient for the output layer, and this gradient is back-propagated to hidden layers to dictate an update direction for the weights. An alternative approach is to train the network with layer-wise loss functions. In this paper we demonstrate, for the first time, that layer-wise training can approach the state-of-the-art on a variety of image datasets. We use single-layer sub-networks and two different supervised loss functions to generate local error signals for the hidden layers, and we show that the combination of these losses help with optimization in the context of local learning. Using local errors could be a step towards more biologically plausible deep learning because the global error does not have to be transported back to hidden layers. A completely backprop free variant outperforms previously reported results among methods aiming for higher biological plausibility. Code is available https://github.com/anokland/local-loss
研究の動機と目的
- グローバルなバックプロパゲーションの代替として、局所的に生成された誤差を用いた層ごとの訓練を動機づけ、調査する。
- 局所的な予測損失と類似性照合損失を組み合わせることで、最適化と一般化が改善されることを示す。
- スケーラビリティと実用性を評価するため、さまざまなデータセットとアーキテクチャで局所損失訓練を評価する。
- バックプロパゲーションの要件を取り除くか削減することによる、生物学的に妥当な学習の可能性を評価する。
提案手法
- 局所学習信号を生成するために、各隠れ層ごとに2つの単一層サブネットワークを提案する:局所クロスエントロピー(予測)損失と類似性照合損失。
- 局所類似性照合損失を、隠れ層の活性化とターゲットラベルの調整済みコサイン類似度(または相関)行列間のフロベニウスノルムの二乗として定義する。
- 前向きパス中に更新を許し、逆伝播のロックを回避するデカップルドな方式で、これらの局所損失を用いて隠れ層を訓練する。
- 勾配ベースの経路を直接的な特徴統計とランダムなターゲット投影に置換することで、バックプロパゲーション不要の変種を導入する(sim-bpf および pred-bpf)。
- 局所損失を加重因子と組み合わせて predsim(および predsim-bpf)損失を作成し、共同最適化を行う。
実験結果
リサーチクエスチョン
- RQ1標準的な視覚データセット上で、層ごとの局所損失(予測と類似性照合)はグローバルなバックプロパゲーションに匹敵するか、近づくことができるか?
- RQ2局所損失を組み合わせることで、それぞれの損失単独の性能を上回るか?
- RQ3バックプロパゲーションなしの変種(ランダムなターゲット投影やHebbian様信号を使用)は競争力のある結果を生むか、どの条件で?
- RQ4局所損失は、エンドツーエンド訓練と比較して、収束、一般化、効率(メモリ、並列性)にどう影響するか?
- RQ5VGG様のアーキテクチャは、多様なデータセットにおいて局所損失訓練に特に適しているか?
主な発見
- 局所損失を用いた層ごとの訓練は、いくつかのデータセットでグローバルなバックプロパゲーションに近づくか、同等になる。
- predsim(予測と類似性照合の組み合わせ)は、いずれかの損失単独より一貫して性能を向上させる。
- ランダムなターゲット投影を用いたバックプロパゲーション不要の変種(sim-bpf、pred-bpf)は優れた結果を達成し、以前に報告された生物学的に妥当な手法のいくつかを上回る。
- 多くのデータセットで、predsim は局所損失の変種の中で最良のテストエラーを示すことが多く、VGG風ネットワークのようなアーキテクチャにおいてエンドツーエンド訓練に匹敵しうる。
- 局所損失はメモリ要件を削減し、競争力のある精度を維持しつつ、並列または貪欲な層ごとの訓練を可能にする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。