Skip to main content
QUICK REVIEW

[論文レビュー] <<The>> quest for the golden activation function

Mina Basirat, Peter M. Roth|arXiv (Cornell University)|Aug 2, 2018
Machine Learning and Data Classification参考文献 29被引用数 27
ひとこと要約

本稿では、遺伝的アルゴリズムを用いてタスク固有の活性化関数を自動で学習する神経進化フレームワークを提案する。ELiSHおよびHardELiSHという2つの新しい活性化関数を導入し、CIFAR-10、CIFAR-100、Tiny ImageNetベンチマークにおいて優れた性能を示した。異なるデータセットやアーキテクチャに対して、それぞれ異なる最適な活性化関数が出現した。

ABSTRACT

Deep Neural Networks have been shown to be beneficial for a variety of tasks, in particular allowing for end-to-end learning and reducing the requirement for manual design decisions. However, still many parameters have to be chosen in advance, also raising the need to optimize them. One important, but often ignored system parameter is the selection of a proper activation function. Thus, in this paper we target to demonstrate the importance of activation functions in general and show that for different tasks different activation functions might be meaningful. To avoid the manual design or selection of activation functions, we build on the idea of genetic algorithms to learn the best activation function for a given task. In addition, we introduce two new activation functions, ELiSH and HardELiSH, which can easily be incorporated in our framework. In this way, we demonstrate for three different image classification benchmarks that different activation functions are learned, also showing improved results compared to typically used baselines.

研究の動機と目的

  • 深層ニューラルネットワークにおける活性化関数選択の理論的基盤の欠如と手動チューニングの問題に対処すること。
  • 異なる画像分類タスクが、それぞれ異なる最適な活性化関数を必要とすることを示すこと。
  • 特定のタスクに特化した、自動的で効率的かつスケーラブルな活性化関数の進化手法を開発すること。
  • 理論的洞察と実証的性能に基づいて、ELiSHおよびHardELiSHという2つの新しい活性化関数を導入すること。
  • 多様なベンチマークを用いてフレームワークを評価し、汎化性と性能向上を検証すること。

提案手法

  • 初期関数を単純なものから始め、段階的に各層で分(piecewise)活性化関数を遺伝的アルゴリズムで進化させる。
  • 文法に基づく表現を用いて活性化関数を記号的式として表現し、突然変異やクロスオーバーなどの進化操作を可能にする。
  • 妥当性評価精度に基づくフィットネス関数を用いて、より優れた性能を示す活性化関数へ向かう進化探索を誘導する。
  • 新たに提案されたELiSHおよびHardELiSH関数を、候補解として進化フレームワークに統合する。
  • ネットワークアーキテクチャを固定し、活性化関数のみを最適化することで、アーキテクチャの変更なしにタスク固有の適応を可能にする。
  • CIFAR-10、CIFAR-100、Tiny ImageNetデータセットに対して、ResNet-56およびVGG-16アーキテクチャに本手法を適用する。

実験結果

リサーチクエスチョン

  • RQ1遺伝的アルゴリズムは、画像分類タスクにおいて標準ベースラインを上回る活性化関数を効果的に進化させることができるか?
  • RQ2同じネットワークアーキテクチャであっても、異なるデータセットが根本的に異なる活性化関数を必要とするのか?
  • RQ3新たに提案されたELiSHおよびHardELiSH関数は、既存の活性化関数と比較して、精度および安定性の面でどのように異なるか?
  • RQ4さまざまなデータセットの複雑さに対応する高精度な活性化関数の構造的・機能的特徴は何か?
  • RQ5進化によって得られた活性化関数は、異なるネットワークの深さやアーキテクチャに一般化可能か?

主な発見

  • CIFAR-10では、最高性能を示した活性化関数はELiSHで、テスト精度93.84%を記録。これはReLU(92.85%)およびSwish(93.42%)を上回った。
  • CIFAR-100では、負の入力に対してHardELiSH、正の入力に対してmax(SeLU, SeLU + Linear)を組み合わせたハイブリッド関数が最良で、ResNet-56で74.65%の精度を達成した。
  • Tiny ImageNetでは、ELiSHがResNet-56で57.34%の精度を記録し、ReLU(57.27%)およびSeLU(50.09%)を上回った。また、HardELiSH + min(ELU, Swish)の組み合わせで57.53%の精度を達成した。
  • 進化した活性化関数は明確な挙動を示した:CIFAR-10では収縮写像(contraction mappings)が最適であり、CIFAR-100およびTiny ImageNetでは拡張写像(expansion mappings)が好まれた。
  • 最高性能を示した関数はしばしば複数の演算(例:max、min、合成)を組み合わせており、データ分布に特化した複雑な非線形的挙動を示した。
  • 結果から、活性化関数の選択は万能ではないことが確認された。異なるタスクやデータセットに応じて、異なる関数形を必要とし、進化によって自動的に同定可能であることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。