QUICK REVIEW

[論文レビュー] Automated Architecture Design for Deep Neural Networks

Steven Abreu|arXiv (Cornell University)|Aug 22, 2019

Advanced Neural Network Applications参考文献 55被引用数 27

ひとこと要約

本学位論文は、進化的探索と構成的動的学習（前向き思考）を用いた自動ニューラルアーキテクチャ設計を提案し、深層フィードフォワードネットワークにおける手動による作業とモデルの複雑さを低減することを目的としている。進化的探索と前向き思考を用いることで、手動設計に比べてパラメータ数を減らし、訓練時間を短縮しつつも競争力のある性能を達成でき、前向き思考を用いることで5×750アーキテクチャでテスト精度96.38％を達成したことが示された。

ABSTRACT

Machine learning has made tremendous progress in recent years and received large amounts of public attention. Though we are still far from designing a full artificially intelligent agent, machine learning has brought us many applications in which computers solve human learning tasks remarkably well. Much of this progress comes from a recent trend within machine learning, called deep learning. Deep learning models are responsible for many state-of-the-art applications of machine learning. Despite their success, deep learning models are hard to train, very difficult to understand, and often times so complex that training is only possible on very large GPU clusters. Lots of work has been done on enabling neural networks to learn efficiently. However, the design and architecture of such neural networks is often done manually through trial and error and expert knowledge. This thesis inspects different approaches, existing and novel, to automate the design of deep feedforward neural networks in an attempt to create less complex models with good performance that take away the burden of deciding on an architecture and make it more efficient to design and train such deep networks.

研究の動機と目的

深層フィードフォワードニューラルネットワークアーキテクチャを設計する際の手動による試行錯誤のプロセスを低減すること。
具体的には、進化的探索と構成的動的学習という自動手法を用いて、効率的で高性能なアーキテクチャを生成することを検討すること。
自動手法が、手動設計のネットワークと同等またはそれ以上の性能を、より少ない複雑さと訓練時間で達成できるかどうかを評価すること。
構成的動的学習のアプローチの一つである前向き思考が、段階的に層を追加することでネットワークアーキテクチャを自動的に構築する有効性を調査すること。

提案手法

検証精度に基づいて選択、交差、変異を用いて、アーキテクチャの集団を進化させる進化的探索を採用し、アーキテクチャを探索した。
残差誤差に基づいて新しい隠れユニットを段階的に追加する構成的動的学習手法「前向き思考」を実装し、汎化性能を向上させた。
すべてのモデルの訓練に、ミニバッチ確率的勾配降下法とRMSProp最適化法（学習率η=0.001、モーメンタムγ=0.9）を用いた。
MNISTベンチマークを用いて、交差エントロピー損失と精度を評価し、ReLU、tanh、softmaxの活性化関数を用いた。
手動設計、ランダム、進化的探索、前向き思考の各手法を、テスト精度、訓練時間、パラメータ数の観点から比較した。
早期停止を適用し、一貫性のある訓練を確保するため、固定されたミニバッチサイズ128を用いた。

実験結果

リサーチクエスチョン

RQ1進化的探索は、手動設計なしに、良好な汎化性能を示す深層フィードフォワードニューラルネットワークアーキテクチャを効果的に発見できるか？
RQ2構成的動的学習の手法の一つである前向き思考は、従来の誤差逆伝播法と比較して、精度と訓練効率の面でどのように異なるか？
RQ3自動アーキテクチャ探索手法を用いる際の、モデルの複雑さ（パラメータ数）と性能のトレードオフは何か？
RQ4自動アーキテクチャ設計は、訓練時間とリソース要件を低減させつつ、テスト精度を維持または向上させることができるか？

主な発見

進化的探索は、50エポック経過後に5×750アーキテクチャで96.38％のテスト精度を達成し、266.9秒の訓練時間で実行された。
前向き思考は、5×750アーキテクチャで97.67％の訓練精度と96.38％のテスト精度を達成し、汎化性能において標準的な誤差逆伝播法を上回った。
前向き思考を用いた2×512アーキテクチャは、92.3秒で訓練が完了し、テスト精度97.42％を達成した。これは手動設計に比べて収束が速いことを示している。
前向き思考による構成的動的学習は、手動によるアーキテクチャチューニングの必要性を低減し、パラメータ数が少なく、より良い汎化性能を持つモデルを生成した。
進化的探索と前向き思考の両方とも、高いテスト精度（最大97.67％）を達成した一方で、大規模で過剰パラメータ化されたアーキテクチャへの依存を減らした。
自動探索と構成的学習の組み合わせにより、特に初期訓練段階において、手動設計に比べて訓練が高速化され、性能が向上した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。