[論文レビュー] Large-Scale Evolution of Image Classifiers
この論文は、大規模な神経進化が、単純で非畳み込みの初期状態から始まる場合でも、CIFAR-10およびCIFAR-100に対して手設計モデルに匹敵する完全に訓練された画像分類器を生み出すことを示し、CIFAR-10で94.6%のテスト精度(アンサンブルで95.6%)を、CIFAR-100で77.0%を達成している。
Neural networks have proven effective at solving difficult problems but designing their architectures can be challenging, even for image classification problems alone. Our goal is to minimize human participation, so we employ evolutionary algorithms to discover such networks automatically. Despite significant computational requirements, we show that it is now possible to evolve models with accuracies within the range of those published in the last year. Specifically, we employ simple evolutionary techniques at unprecedented scales to discover models for the CIFAR-10 and CIFAR-100 datasets, starting from trivial initial conditions and reaching accuracies of 94.6% (95.6% for ensemble) and 77.0%, respectively. To do this, we use novel and intuitive mutation operators that navigate large search spaces; we stress that no human participation is required once evolution starts and that the output is a fully-trained model. Throughout this work, we place special emphasis on the repeatability of results, the variability in the outcomes and the computational requirements.
研究の動機と目的
- 人間の介入を最小化するために、画像分類の自動的なアーキテクチャ発見を動機づける。
- 単純な進化プロセスが、大規模に高性能な畳み込みネットワークを生み出せることを示す。
- 大規模な神経進化の再現性、ばらつき、および計算要件を示す。
提案手法
- 1000のニューラルアーキテクチャの集団に対して、トーナメント選択を用いた massively parallel かつ非同期の進化アルゴリズムを使用する。
- アーキテクチャを、畳み込みエッジで接続された活性化テンソルの可変グラフ(DNA)としてエンコードする。
- 畳み込みの追加/削除、ストライド、チャネル数、フィルターサイズの変更、スキップ接続の追加/削除などを含む変異を適用する。
- 各候補を、固定ステップ数(25,600)でSGDとモーメンタムを用いて学習し、検証精度によって適応度を評価する。
- 重み継承により、層の形状が一致する場合に変異が重みを再利用できるようにし、ゼロから始めることなく完全に訓練された子孫を可能にする。
実験結果
リサーチクエスチョン
- RQ1単純で一度きりの初期条件から始まる進化プロセスが、手設計モデルに匹敵する完全に訓練された画像分類器を生み出すことができるか。
- RQ2大規模な神経進化において、集団サイズと個体ごとの訓練ステップが性能、再現性、局所最適解への収束にどう影響するか。
- RQ3CIFAR-10の進化はアルゴリズムの変更なしにCIFAR-100へ適用可能か。
- RQ4このアプローチの計算コストとスケーラビリティはどれくらいか、重み継承が結果に与える影響は。
- RQ5局所最適解からの脱出とアーキテクチャ改善において、変異と組み換えの役割はどの程度か。
主な発見
- 進化したモデルは、平均で約94.1%のCIFAR-10テスト精度に達し、トップモデルは94.6%、アンサンブルで95.6%。
- CIFAR-100では、進化した単一実験で77.0%のテスト精度を達成。
- 5つの大規模実験を通じて、検証精度で最も良いモデルは94.6%で、標準偏差は0.4%だった。
- 5つの実験全体の総計算量は約4×10^20 FLOPs、実験あたり約9×10^19 FLOPs。
- 高精度を達成するには重み継承が重要であり、それを無効にすると性能が低下する。
- 個体群のサイズと個体あたりの訓練ステップを増やすと結果が改善され、局所最適解からの脱出にも役立つ。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。