Skip to main content
QUICK REVIEW

[논문 리뷰] <<The>> quest for the golden activation function

Mina Basirat, Peter M. Roth|arXiv (Cornell University)|2018. 08. 02.
Machine Learning and Data Classification참고 문헌 29인용 수 27
한 줄 요약

이 논문은 유전 알고리즘을 사용하여 작업별 최적의 활성화 함수를 자동으로 학습하는 신경진화 프레임워크를 제안하며, ELiSH와 HardELiSH라는 두 가지 새로운 활성화 함수를 도입하여 CIFAR-10, CIFAR-100 및 Tiny ImageNet 벤치마크에서 향상된 성능을 보여주며, 다양한 데이터셋과 아키텍처에 따라 서로 다른 최적의 활성화 함수가 도출됨을 확인함.

ABSTRACT

Deep Neural Networks have been shown to be beneficial for a variety of tasks, in particular allowing for end-to-end learning and reducing the requirement for manual design decisions. However, still many parameters have to be chosen in advance, also raising the need to optimize them. One important, but often ignored system parameter is the selection of a proper activation function. Thus, in this paper we target to demonstrate the importance of activation functions in general and show that for different tasks different activation functions might be meaningful. To avoid the manual design or selection of activation functions, we build on the idea of genetic algorithms to learn the best activation function for a given task. In addition, we introduce two new activation functions, ELiSH and HardELiSH, which can easily be incorporated in our framework. In this way, we demonstrate for three different image classification benchmarks that different activation functions are learned, also showing improved results compared to typically used baselines.

연구 동기 및 목표

  • 딥 네ural 네트워크의 활성화 함수 선택에 있어 이론적 기반의 부족과 수동 조정의 문제를 해결하기 위해.
  • 다양한 이미지 분류 작업에서 서로 다른 최적의 활성화 함수가 필요하다는 것을 입증하기 위해.
  • 특정 작업에 맞게 조정된 자동화되고 효율적이며 확장 가능한 활성화 함수 진화 방법을 개발하기 위해.
  • 이론적 통찰과 실험적 성능에 기반한 두 가지 새로운 활성화 함수인 ELiSH와 HardELiSH를 도입하기 위해.
  • 다양한 벤치마크에서 프레임워크를 평가하여 일반화 능력과 성능 향상 여부를 검증하기 위해.

제안 방법

  • 기본적으로 단순한 초기 함수에서 시작하여, 계층별로 조각별 활성화 함수를 진화시키는 유전 알고리즘 프레임워크를 적용함.
  • 유전적 연산인 변이와 교배를 가능하게 하기 위해 문법 기반 표현을 사용하여 활성화 함수를 기호적 표현으로 표현함.
  • 유효성 검증 정확도를 기반으로 한 피트니스 함수를 사용하여, 더 나은 성능을 보이는 활성화 함수로 향한 진화적 탐색을 유도함.
  • 새로 제안된 ELiSH 및 HardELiSH 함수를 후보 솔루션으로 프레임워크에 통합함.
  • 네트워크 아키텍처를 고정하고 활성화 함수만 최적화함으로써, 아키텍처 변경 없이 작업별 적응이 가능하도록 함.
  • CIFAR-10, CIFAR-100 및 Tiny ImageNet 데이터셋에서 ResNet-56 및 VGG-16 아키텍처에 이 방법을 적용함.

실험 결과

연구 질문

  • RQ1유전 알고리즘이 이미지 분류 작업에서 표준 기준보다 뛰어난 성능을 보이는 활성화 함수를 효과적으로 진화시킬 수 있는가?
  • RQ2동일한 네트워크 아키텍처를 사용하더라도, 다양한 데이터셋이 본질적으로 다른 활성화 함수가 필요한가?
  • RQ3제안된 새로운 ELiSH 및 HardELiSH 함수는 기존의 활성화 함수와 비교해 정확도와 안정성 측면에서 어떻게 성능을 내는가?
  • RQ4다양한 데이터셋 복잡도에서 높은 성능을 내는 활성화 함수의 구조적 및 기능적 특성은 무엇인가?
  • RQ5진화된 활성화 함수는 다양한 네트워크 깊이와 아키텍처 간에도 일반화 가능한가?

주요 결과

  • CIFAR-10에서 최고 성능을 낸 활성화 함수는 ELiSH로, 테스트 정확도가 93.84%였으며, ReLU(92.85%)와 Swish(93.42%)를 모두 초월함.
  • CIFAR-100에서는 음수 입력에 대해 HardELiSH를, 양수 입력에 대해 max(SeLU, SeLU + Linear)를 사용하는 하이브리드 함수가 가장 뛰어난 성능을 보였으며, ResNet-56 기준 정확도는 74.65%였음.
  • Tiny ImageNet에서는 ELiSH가 ResNet-56에서 57.34%의 정확도를 기록하여 ReLU(57.27%)와 SeLU(50.09%)를 모두 앞서며 성능을 뛰어넘었고, HardELiSH + min(ELU, Swish) 조합은 57.53%의 정확도를 기록함.
  • 진화된 활성화 함수는 각기 다른 행동을 보였으며, CIFAR-10에는 압축 사상이 최적인 반면, CIFAR-100과 Tiny ImageNet에는 확장 사상이 선호됨.
  • 최고 성능을 낸 함수들은 종종 여러 연산(예: max, min, 복합 함수)을 조합하여 복잡한 비선형 행동을 보였으며, 이는 데이터 분포에 맞게 맞춤형으로 설계된 특성을 지님.
  • 결과적으로 활성화 함수 선택은 만능이 아니며, 다양한 작업과 데이터셋에 따라 서로 다른 기능 형태가 필요하며, 이는 진화 기반으로 자동으로 발견될 수 있음.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.