[논문 리뷰] Deep Learning with S-shaped Rectified Linear Activation Units
이 논문은 네 개의 학습 가능한 매개변수를 통해 심리물리학 법칙(웨버-페히너 법칙 및 스텐스 법칙)을 모델링함으로써 볼록 함수와 비볼록 함수를 모두 학습할 수 있는 새로운 활성화 함수인 S형 정류선형 유닛(SReLU)을 제안한다. SReLU는 계산 비용을 최소화하면서 CIFAR-10, CIFAR-100, MNIST 및 ImageNet에서 딥 네트워크 성능을 향상시켜 ReLU, Leaky ReLU, PReLU 및 Maxout보다 최신 기준 성능을 달성한다.
Rectified linear activation units are important components for state-of-the-art deep convolutional networks. In this paper, we propose a novel S-shaped rectified linear activation unit (SReLU) to learn both convex and non-convex functions, imitating the multiple function forms given by the two fundamental laws, namely the Webner-Fechner law and the Stevens law, in psychophysics and neural sciences. Specifically, SReLU consists of three piecewise linear functions, which are formulated by four learnable parameters. The SReLU is learned jointly with the training of the whole deep network through back propagation. During the training phase, to initialize SReLU in different layers, we propose a "freezing" method to degenerate SReLU into a predefined leaky rectified linear unit in the initial several training epochs and then adaptively learn the good initial values. SReLU can be universally used in the existing deep networks with negligible additional parameters and computation cost. Experiments with two popular CNN architectures, Network in Network and GoogLeNet on scale-various benchmarks including CIFAR10, CIFAR100, MNIST and ImageNet demonstrate that SReLU achieves remarkable improvement compared to other activation functions.
연구 동기 및 목표
- 기존 ReLU 기반 활성화 함수가 비볼록 함수를 학습하는 데에 한계가 있음을 해결하기 위해.
- 딥 네트워크에서 볼록성과 비볼록성을 모두 모델링할 수 있는 유니버설 활성화 유닛을 개발하기 위해.
- 백프로파게이션을 통한 엔드 투 엔드 학습을 가능하게 하면서도 계산 효율성을 유지하기 위해.
- 모델 복잡도를 크게 증가시키지 않고 일반화 성능과 수렴 속도를 향상시키기 위해.
제안 방법
- SReLU는 세 개의 구간으로 이루어진 조각별 선형 함수로 정의되며, 네 개의 학습 가능한 매개변수인 왼쪽 기울기(a^l), 오른쪽 기울기(a^r), 그리고 두 개의 임계값(t^l, t^r)으로 파arameter화된다.
- 함수는 웨버-페히너 법칙의 로그 형태와 스텐스 법칙의 거듭제곱 형태를 모방함으로써 다양한 비선형 행동을 모델링할 수 있다.
- 초기 학습 단계에서 SReLU가 누출 ReLU와 유사하게 행동하도록 제약을 두는 '고정' 초기화 전략을 사용한다. 이후 백프로파게이션을 통해 점차 매개변수를 적응시킨다.
- SReLU는 추가적인 매개변수와 계산 비용을 거의 들이지 않는 방식으로 기존 딥 네트워크(예: Network-in-Network 및 GoogLeNet)에 통합된다.
- 표준 백프로파게이션을 사용하여 엔드 투 엔드로 학습되며, SReLU 매개변수는 네트워크 가중치와 함께 동시에 갱신된다.
- 다양한 벤치마크에서 평가되었으며, CIFAR-10, CIFAR-100, MNIST 및 ImageNet을 대상으로 단일 뷰 및 증강된 학습 프로토콜을 모두 사용하였다.
실험 결과
연구 질문
- RQ1아키텍처 제약 없이 활성화 함수가 볼록 함수와 비볼록 함수를 모두 학습할 수 있는가?
- RQ2심리물리학 법칙(웨버-페히너 법칙 및 스텐스 법칙)을 모델링함으로써 딥 네트워크의 표현 학습 성능이 향상되는가?
- RQ3SReLU가 정확도와 수렴 속도 측면에서 ReLU, Leaky ReLU, PReLU 및 Maxout을 모두 능가할 수 있는가?
- RQ4SReLU는 네트워크 레이어 간의 다양한 입력 분포에 어떻게 적응하는가?
- RQ5SReLU는 ImageNet과 같은 대규모 이미지 분류 작업에 어떤 영향을 미치는가?
주요 결과
- CIFAR-10에서 SReLU는 NIN을 사용해 테스트 오차를 0.35%로 감소시켰으며, ReLU(0.47%) 및 기타 변종보다 뛰어난 성능을 보였다.
- CIFAR-100에서 SReLU는 12.48%의 오차율을 기록하여 ReLU(13.12%) 및 PReLU(12.71%)를 모두 초월했다.
- MNIST에서 SReLU는 0.35%의 오차율을 기록했으며, 오직 0.35M개의 매개변수로도 최고 성능을 내는 DSN 모델과 동일한 성능를 달성했다.
- ImageNet에서 SReLU를 적용한 GoogLeNet은 9.86%의 상위-1 오차율을 기록하여 원래 ReLU 기반 GoogLeNet(11.1%)보다 1.24% 향상된 성능를 보였다.
- SReLU 매개변수들은 동적으로 적응한다: 더 높은 레이어에서는 더 큰 t^r 값을 학습하여 더 높은 입력 크기에 대응함으로써 강력한 입력 분포 적응 능력을 보였다.
- SReLU는 다양한 함수 형태를 학습한다: 초기 레이어에서는 a^r > 1(비볼록), 더 깊은 레이어에서는 a^r ≈ 1(볼록)으로 나타나, 둘 다 모델링할 수 있음을 확인했다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.