[論文レビュー] Weight Agnostic Neural Networks
本稿では、従来の学習を経ずにランダムに初期化された重みを用いてタスクを解けるニューラルネットワークアーキテクチャを発見する、Weight Agnostic Neural Networks (WANNs) を提案する。重みを一様に共有するランダム値の広い範囲で性能を最適化することで、最小で高性能なアーキテクチャを発見し、MNISTでは約92%の精度、連続的制御タスクでは高い報酬を得ることに成功した。これは、アーキテクチャそのものが有効な解決策を内蔵できることを示している。
Not all neural network architectures are created equal, some perform much better than others for certain tasks. But how important are the weight parameters of a neural network compared to its architecture? In this work, we question to what extent neural network architectures alone, without learning any weight parameters, can encode solutions for a given task. We propose a search method for neural network architectures that can already perform a task without any explicit weight training. To evaluate these networks, we populate the connections with a single shared weight parameter sampled from a uniform random distribution, and measure the expected performance. We demonstrate that our method can find minimal neural network architectures that can perform several reinforcement learning tasks without weight training. On a supervised learning domain, we find network architectures that achieve much higher than chance accuracy on MNIST using random weights. Interactive version of this paper at https://weightagnostic.github.io/
研究の動機と目的
- 学習による重みの最適化なしに、ニューラルネットワークのアーキテクチャそのものが複雑なタスクに有効な解決策を内蔵できるかを調査すること。
- 重み最適化よりもアーキテクチャのインダクティブバイアスを重視する探索手法を開発すること。
- 適切に設計されたアーキテクチャと組み合わせた場合、ランダムに初期化された重みが依然として高い性能を発揮できるかを評価すること。
- 最小限のアーキテクチャが、強化学習および教師あり学習を含む多様なタスクで強力な性能を達成できることを示すこと。
- タスク固有の能力を内蔵するアーキテクチャの発見を通じて、勾配に基づかない学習手法の研究を促進すること。
提案手法
- すべての重みを1つの共有ランダムパラメータとして扱う探索フレームワークを提案し、固定範囲から一様に抽出する。
- 複数のランダム重み値における性能の平均を評価し、その分布上の期待性能を最適化することで各アーキテクチャを評価する。
- NEATにインspiredされた神経進化的手法を用い、ノードや接続の追加、活性化関数の変更などの操作でアーキテクチャを進化させる。
- トーナメント選択と変異演算子を用いて、重みの適応に依存しないアーキテクチャ空間の探索を実現する。
- 強化学習タスク(Swing-Up CartPole、Bipedal Walker、Car Racing)および教師あり学習(MNIST)の両方に対してこの探索を適用する。
- アーキテクチャの重み初期化へのロバストネスを評価するために、評価中はすべての接続で同一の共有重み値を用いる。
実験結果
リサーチクエスチョン
- RQ1学習による重みの最適化なしに、ニューラルネットワークのアーキテクチャそのものが複雑な強化学習タスクを解けるか?
- RQ2適切に設計されたアーキテクチャと組み合わせた場合、ランダムに初期化された重みがどれほど高い性能を発揮できるか?
- RQ3教師あり学習タスク(例:MNIST)において、ランダムな重みで10%の確率を超える顕著な性能を達成できる最小限のアーキテクチャを発見できるか?
- RQ4標準的な訓練済みネットワークと比較して、重みに依存しないアーキテクチャの性能はベンチマークタスクでどうなるか?
- RQ5広範なランダム重みの範囲で性能を最適化する過程で、どのようなアーキテクチャのインダクティブバイアスが出現するか?
主な発見
- 本手法は、重みの学習なしにBipedal Walker や Car Racing といった連続的制御タスクで高い性能を発揮する最小のニューラルネットワークアーキテクチャを発見した。平均報酬はそれぞれ300および500を超えた。
- MNISTデータセットでは、WANNsがランダム重みのみを用いてテスト精度約92%を達成し、10%の確率的水準を著しく上回った。
- 最高性能を示したWANNアーキテクチャは、広い範囲の共有重み値に対してロバストな性能を示し、トップネットワークは共有重みが±2のような極端な値に設定されても依然として高い性能を維持した。
- ポリシー勾配法による共有重みパラメータの微調整により性能がさらに向上した。これは、アーキテクチャが強いインダクティブバイアスを内蔵しており、最小限の学習で改善可能であることを示している。
- 本手法は、標準ベースラインが完全な重み学習を用いても上回る性能を示すタスク(例:Bipedal Walker)で、優れたアーキテクチャを発見した。これは、アーキテクチャに強いインダクティブバイアスが内蔵されていることを示唆している。
- 本手法は、小規模かつ効果的なアーキテクチャを効果的に発見でき、MNIST用のWANNは標準ネットワークの5%の接続数で、準SOTA性能を達成した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。