[論文レビュー] Assessing the Scalability of Biologically-Motivated Deep Learning Algorithms and Architectures
本論文は生物学的に動機づけられた学習アルゴリズム(ターゲット伝播の派生形とフィードバックアライメント)を MNIST、CIFAR-10、ImageNet で評価し、局所的に接続されたアーキテクチャで特に、バックプロパゲーションと比較して ImageNet へのスケールが悪いことを示している。
The backpropagation of error algorithm (BP) is impossible to implement in a real brain. The recent success of deep networks in machine learning and AI, however, has inspired proposals for understanding how the brain might learn across multiple layers, and hence how it might approximate BP. As of yet, none of these proposals have been rigorously evaluated on tasks where BP-guided deep learning has proved critical, or in architectures more structured than simple fully-connected networks. Here we present results on scaling up biologically motivated models of deep learning on datasets which need deep networks with appropriate architectures to achieve good performance. We present results on the MNIST, CIFAR-10, and ImageNet datasets and explore variants of target-propagation (TP) and feedback alignment (FA) algorithms, and explore performance in both fully- and locally-connected architectures. We also introduce weight-transport-free variants of difference target propagation (DTP) modified to remove backpropagation from the penultimate layer. Many of these algorithms perform well for MNIST, but for CIFAR and ImageNet we find that TP and FA variants perform significantly worse than BP, especially for networks composed of locally connected units, opening questions about whether new architectures and algorithms are required to scale these approaches. Our results and implementation details help establish baselines for biologically motivated deep learning schemes going forward.
研究の動機と目的
- 生物学的に動機づけられた学習アルゴリズムが MNIST から CIFAR-10 や ImageNet のようなより難しいデータセットへスケールできるか評価する。
- 局所結合とウェイト共有畳み込みなど、アーキテクチャの選択が生物学的に妥当な学習に与える影響を評価する。
- 勾配伝搬の役割を理解するため、簡略化した DTP 変種を含むベースラインとバリアントを提供する。
- 大規模な視覚タスクにおける生物学的現実性と学習性能が収束する点と逸脱する点について指針を示す。
提案手法
- 完全に接続されたおよび局所的に接続されたアーキテクチャで、MNIST と CIFAR-10 に対して DTP を含む TP 派生形と SDTP、以及 BP(バックプロパゲーション)と FA(フィードバックアライメント)の派生形を評価する。
- グラデイエント伝播とウェイト輸送を DTP から取り除く、Simplified Difference Target Propagation (SDTP) を導入する。
- penultimate-layer targets の多様性を高める付加出力を備えた AO-SDTP(追加出力付き SDTP)を試す。
- FA、DFA、および標準 BP(ConvNet 派生を含む)とデータセットとアーキテクチャを横断して比較する。
- 完全連結と局所接続ネットワークを対比させてウェイト共有の役割を調査し、生物学的妥当性と性能を評価する。
- 本論文で説明されているように、Adam オプティマイザと Glorot–Bengio 初期化、tanh 活性化関数、および標準的な学習プロトコルを利用する。
実験結果
リサーチクエスチョン
- RQ1生物学的に動機づけられた学習アルゴリズム(TP 派生形、FA、DFA)は、バックプロパゲーションと同等の性能で MNIST から CIFAR-10 および ImageNet へスケールできるか。
- RQ2局所結合アーキテクチャ(ウェイト共有なし)は、TP/FA による学習において標準 BP と比較してどのように影響するか。
- RQ3勾配伝搬の簡略化(SDTP)は、低エントロピーターゲット(分類)と高次元の penultimate 表現に特において、性能を妨げるか維持するか。
- RQ4TP ベースの手法で penultimate-layer ターゲットが弱い場合に、補助出力(AO-SDTP)を追加することで緩和に役立つか。
- RQ5ImageNet のような大規模データセットで生物学的に動機づけられたアルゴリズムが BP と同等に匹敵できない具体的な制約とボトルネックは何か。
主な発見
- TP および FA の派生形は、特定のアーキテクチャとハイパーパラメータ下で MNIST および CIFAR-10 で BP に近づくことがあるが、一般的には BP を下回り、特に局所接続層ではそうなる。
- SDTP は MNIST で DTP と同等に動作することがあるが、CIFAR-10 ではより大きなギャップを示し、ターゲット多様性と良好な逆写像の重要性を強調する。
- FA および DFA は一部の TP 派生形より改善を示すが、ImageNet では BP には大きく届かず、DFA は大規模ネットワークでは記憶コストが高い。
- 畳み込み/ウェイト共有ネットワークは、方法を問わず局所接続バリアントよりも優れており、アーキテクチャの選択が生物学的に動機づけられた学習の有効性に強く影響することを示している。
- すべての生物学的に動機づけられたアルゴリズムは ImageNet で BP に対して実質的な性能差を示し、大規模データセットへスケールするには新しいアーキテクチャや学習規則が必要であることを示唆している。
- AO-SDTP はターゲット多様性を高めることで SDTP を控えめに改善できるが、CIFAR では依然として BP に及ばず、ImageNet では BP を大きく下回る。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。