Skip to main content
QUICK REVIEW

[論文レビュー] Swish: a Self-Gated Activation Function

Prajit Ramachandran, Barret Zoph|arXiv (Cornell University)|Oct 16, 2017
Domain Adaptation and Few-Shot Learning参考文献 19被引用数 326
ひとこと要約

この論文では、$f(x) = x \cdot \text{sigmoid}(x)$ で定義される自己ゲート付き活性化関数であるSwishを紹介しており、深層ネットワークにおいてReLUを凌駕する。実験の結果、Mobile NASNet-AではImageNetのトップ-1精度が0.9%向上し、Inception-ResNet-v2では0.6%向上した。導入にあたっては、アーキテクチャの変更を最小限に抑えることができる。

ABSTRACT

The choice of activation functions in deep networks has a significant effect on the training dynamics and task performance. Currently, the most successful and widely-used activation function is the Rectified Linear Unit (ReLU). Although various alternatives to ReLU have been proposed, none have managed to replace it due to inconsistent gains. In this work, we propose a new activation function, named Swish, which is simply $f(x) = x \cdot ext{sigmoid}(x)$. Our experiments show that Swish tends to work better than ReLU on deeper models across a number of challenging datasets. For example, simply replacing ReLUs with Swish units improves top-1 classification accuracy on ImageNet by 0.9% for Mobile NASNet-A and 0.6% for Inception-ResNet-v2. The simplicity of Swish and its similarity to ReLU make it easy for practitioners to replace ReLUs with Swish units in any neural network.

研究の動機と目的

  • 深層学習モデルにおけるReLUおよび既存のReLU代替手法の限界を解決すること。
  • より深いアーキテクチャにおいて一貫して性能を向上させる活性化関数を特定すること。
  • 既存のニューラルネットワークフレームワークと互換性を保ちつつ、簡単で効果的な活性化関数を開発すること。
  • ImageNetのような挑戦的なベンチマークにおける提案手法の影響を評価すること。

提案手法

  • Swishを新しい活性化関数として提案し、$f(x) = x \cdot \text{sigmoid}(x)$ で定義する。
  • シグモイドゲートの滑らかで単調でない性質を活用し、自己ゲート動作を実現する。
  • 勾配ベース最適化を用いて、ReLUの代わりにSwishを含むモデルを学習する。
  • ImageNet、Mobile NASNet-A、Inception-ResNet-v2を含む標準ベンチマークで性能を評価する。
  • 入力出力次元をReLUと同一に保つことで、後方互換性を確保する。

実験結果

リサーチクエスチョン

  • RQ1ReLUと比較して、より深いモデルにおいて自己ゲート付き活性化関数であるSwishが性能を向上させるか?
  • RQ2Swishは多様で困難な深層学習アーキテクチャにおいて一貫した向上を達成できるか?
  • RQ3精度および学習ダイナミクスの観点から、Swishは他のReLU変種と比べてどのように差をつけるか?
  • RQ4アーキテクチャの変更なしに、既存のニューラルネットワークフレームワークへの統合が容易か?

主な発見

  • Mobile NASNet-AにおいてReLUをSwishに置き換えると、ImageNetのトップ-1分類精度が0.9%向上する。
  • Inception-ResNet-v2において、SwishはReLUに対して0.6%の精度向上を達成した。
  • 性能向上はより深いモデルにおいても一貫しており、Swishの深層アーキテクチャにおける有効性を示している。
  • Swishはシンプルさと互換性を維持しており、任意のニューラルネットワークにおけるReLUユニットの単純な置き換えを可能にしている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。