[논문 리뷰] Noisy Activation Functions
이 논문은 훈련 중에 제어된 노이즈를 포화 비선형성(예: 시그모이드, 탄هي)에 주입함으로써 기울기 흐름과 최적화를 향상시키는 노이즈가 섞인 활성화 함수를 소개한다. 특히 기울기가 소멸하는 경우에 효과적이다. 노이즈 수준을 시간이 지남에 따라 점차 줄임으로써, 확률적 경량 최적화 방법이 더 효과적으로 탐색할 수 있도록 하여 이미지 캡션 생성, 시퀀스 모델링, 신경 터미트 기계(Neural Turing Machines) 등의 작업에서 최신 기술 수준 또는 경쟁력 있는 성능을 달성한다. 수렴성과 일반화 능력이 뛰어나다.
Common nonlinear activation functions used in neural networks can cause training difficulties due to the saturation behavior of the activation function, which may hide dependencies that are not visible to vanilla-SGD (using first order gradients only). Gating mechanisms that use softly saturating activation functions to emulate the discrete switching of digital logic circuits are good examples of this. We propose to exploit the injection of appropriate noise so that the gradients may flow easily, even if the noiseless application of the activation function would yield zero gradient. Large noise will dominate the noise-free gradient and allow stochastic gradient descent toexplore more. By adding noise only to the problematic parts of the activation function, we allow the optimization procedure to explore the boundary between the degenerate (saturating) and the well-behaved parts of the activation function. We also establish connections to simulated annealing, when the amount of noise is annealed down, making it easier to optimize hard objective functions. We find experimentally that replacing such saturating activation functions by noisy variants helps training in many contexts, yielding state-of-the-art or competitive results on different datasets and task, especially when training seems to be the most difficult, e.g., when curriculum learning is necessary to obtain good results.
연구 동기 및 목표
- 딥 네트워크의 훈련을 방해하는 시그모이드 및 탄هي와 같은 하드 포화 활성화 함수에서 기인하는 기울기 소멸 문제를 해결한다.
- LSTM, GRU 등의 게이팅 메커니즘에서 부드럽게 포화되는 비선형성의 한계를 극복하여 기울기 누출로 인해 진짜 케이스/오프 결정을 하지 못하는 문제를 해결한다.
- 테스트 시에 하드 포화 비선형성을 사용하여 표현 능력을 향상시키되, 노이즈 주입을 통해 훈련 안정성을 유지한다.
- 노이즈 감쇠를 사용한 계속성 유사 최적화 방법을 수식화하여 어려운 훈련 환경에서 수렴성과 일반화 능력을 향상시킨다.
제안 방법
- 기울기가 소멸하는 영역(즉, 큰 |x|에서)에서 활성화 함수 출력에 노이즈를 주입하여 역전파 동안 비영 기울기 흐름을 유지한다.
- 노이즈의 표준편차를 제어하는 학습 가능한 노이즈 스케일 파라미터를 사용하여 모델이 훈련 중에 노이즈 수준을 적응적으로 조절할 수 있도록 한다.
- 노이즈를 활성화 함수의 문제적(포화된) 영역에만 적용하여 비선형성의 구조를 유지하면서 동시에 탐색을 가능하게 한다.
- 시간이 지남에 따라 노이즈 수준을 감쇠시키는 스케줄링(예: $ c / \sqrt{t+1} $)을 사용하여 시뮬레이션된 안내와 유사하게 탐색에서 이용으로 전환한다.
- 테스트 시에 노이즈가 섞인 활성화를 결정론적 기댓값으로 대체하여 게이팅 유닛에서 기울기 문제 없이 0 또는 1과 같은 하드 결정을 내릴 수 있도록 한다.
- 기존 아키텍처(예: LSTM, GRU, NTM)에 수정 없이 노이즈가 섞인 활성화를 즉각적으로 통합할 수 있어 쉽게 배포할 수 있다.
실험 결과
연구 질문
- RQ1포화 활성화 함수에 노이즈를 주입함으로써 하드 게이팅 메커니즘을 가진 딥 네트워크의 훈련 안정성과 성능을 향상시킬 수 있는가?
- RQ2포화 영역에서의 노이즈 주입이 기울기 흐름을 향상시키고 최적화가 열악한 국소 최적점에 갇히는 것을 방지하는가?
- RQ3노이즈 감쇠는 특히 커리큘럼 학습이 필요한 작업에서 효과적인 계속성 최적화 방법이 될 수 있는가?
- RQ4노이즈가 섞인 활성화 함수는 도전적인 벤치마크에서 표준 시그모이드/탄히 및 ReLU 기반 모델보다 테스트 정확도와 일반화 능력에서 뛰어나지 않는가?
주요 결과
- Penn Treebank 언어 모델링 작업에서 노이즈가 섞인 활성화 함수는 표준 시그모이드 및 탄히 유닛보다 유의미하게 뛰어난 성능을 보이며, 경쟁력 있거나 최신 기술 수준의 결과를 달성한다.
- 이미지 캡션 생성 작업에서 노이즈가 섞인 활성화를 사용한 모델은 Meteor 점수 28.9를 기록하여 기준 모델을 초월했으며, Xu 등(2015)의 최고 성능 모델조차도 초월했다. 드롭아웃 없이도 성능이 뛰어나다.
- 노이즈 감쇠를 적용한 모델은 유일한 요소 예측 작업에서 테스트 오차 9.53%를 기록하여 커리큘럼 학습(14.83%)과 기준 모델(33.28%)을 모두 초월했다.
- 신경 터미트 기계(Neural Turing Machine)의 연관 기억 회상 작업에서 노이즈가 섞인 NTM는 더 빠르게 수렴했고 성공적으로 작업을 완수했지만, 표준 NTM는 낮은 오차에 도달하지 못했다.
- 드롭아웃을 추가하면 성능이 더 향상되었지만, 주요 성과는 노이즈가 섞인 활성화 메커니즘 자체에서 기인했다. 드롭아웃이 없는 버전조차도 기준 모델을 초월했다.
- 노이즈 수준을 감쇠시킴으로써 계속성 유사 최적화 과정이 가능해졌고, 일반화 능력이 향상되었으며, 이전에는 최적화하기 어려웠던 게이팅 RNN 등 조각별 선형 활성화를 가진 모델의 훈련이 가능해졌다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.