[논문 리뷰] Searching for Activation Functions
논문은 자동 검색을 이용해 스칼라 활성화 함수를 발견하고, Swish(f(x)=x·sigmoid(βx))를 도입하며, Swish가 Deep 모델과 다양한 과제에서 ReLU를 능가하는 경우가 많음을 보여준다.
The choice of activation functions in deep networks has a significant effect on the training dynamics and task performance. Currently, the most successful and widely-used activation function is the Rectified Linear Unit (ReLU). Although various hand-designed alternatives to ReLU have been proposed, none have managed to replace it due to inconsistent gains. In this work, we propose to leverage automatic search techniques to discover new activation functions. Using a combination of exhaustive and reinforcement learning-based search, we discover multiple novel activation functions. We verify the effectiveness of the searches by conducting an empirical evaluation with the best discovered activation function. Our experiments show that the best discovered activation function, $f(x) = x \cdot ext{sigmoid}(βx)$, which we name Swish, tends to work better than ReLU on deeper models across a number of challenging datasets. For example, simply replacing ReLUs with Swish units improves top-1 classification accuracy on ImageNet by 0.9\% for Mobile NASNet-A and 0.6\% for Inception-ResNet-v2. The simplicity of Swish and its similarity to ReLU make it easy for practitioners to replace ReLUs with Swish units in any neural network.
연구 동기 및 목표
- 활성화 함수가 학습 역학 및 과제 성능에 미치는 영향을 자극한다.
- 새로운 스칼라 활성화 함수를 발견하기 위한 검색 기반 접근법을 제안한다.
- 완전 탐색과 강화 학습 기반 검색으로 찾은 최상위 활성화 함수를 식별하고 검증한다.
- Swish의 경험적 이점을 다양한 아키텍처와 데이터셋에서 입증한다.
제안 방법
- 단일항 및 이항 함수를 이용해 활성화 함수를 구성하는 검색 공간을 설계한다.
- 작은 공간은 완전 탐색으로, 큰 공간은 강화 학습으로 제어되는 RNN을 사용해 후보 함수를 제안한다.
- 각 후보를 평가하기 위해 자식 네트워크(예: CIFAR-10의 ResNet-20)를 학습시켜 검증 정확도로 평가한다.
- 후보 활성화 함수의 학습과정을 분산 학습으로 병렬화하고 보상에 기반해 탐색 정책을 업데이트한다.
- β가 고정되거나 학습 가능한 f(x)=x·sigmoid(βx) 형태의 Swish를 정의하고, 그 특성 및 도함수를 분석한다.
실험 결과
연구 질문
- RQ1자동 검색이 ReLU 같은 수작업 설계 활성화 함수보다 뛰어난 활성화 함수를 발견할 수 있는가?
- RQ2검색으로 발견된 고성능 활성화 함수의 특성은 무엇인가?
- RQ3Swish가 검색 설정을 넘어 여러 모델 계열과 과제에 일반화되는가?
- RQ4Swish가 ImageNet 및 NLP 번역 과제와 같은 대규모 데이터셋에서 ReLU와 비교하여 어떤 차이가 있는가?
주요 결과
- Swish(f(x)=x·sigmoid(βx))는 종종 심층 네트워크의 다양한 데이터셋과 아키텍처에서 ReLU를 상회하거나 동등하게 만든다.
- β가 고정된 Swish-1 또는 학습 가능한 β를 가진 Swish는 CIFAR-10/100, ImageNet 모바일 모델, 그리고 여러 ImageNet 아키텍처에서 ReLU를 자주 능가한다.
- 최상위 활성화 함수는 대체로 단순하고(1–2개의 코어 유닛) 종종 최종 이진 함수에 입력으로 원시 preactivation x를 사용한다.
- Swish는 매끄럽고 비단조이며 상한이 무한하고, 그 도함수 특성은 ReLU와 다르며 실무에서 우수한 최적화 동작을 보인다.
- ImageNet에서 Swish는 Mobile NASNet-A에서 상위 1위 정확도를 0.9% 향상시키고 Inception-ResNet-v2에서 0.6%를 향상시키며 ReLU를 대체할 때의 효과를 보여준다.
- Swish-1 및 Swish는 Transformer를 포함한 다수의 모델 계열 및 과제에서 기준선과 일치하거나 이를 능가한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.