[논문 리뷰] LiSHT: Non-Parametric Linearly Scaled Hyperbolic Tangent Activation Function for Neural Networks
이 논문은 비매개변수적이고 선형 스케일링된 hyperbolic tangent 활성화 함수인 LiSHT를 제안하며, Tanh 함수의 범위를 제거하여 비선형성을 향상시키고 죽어가는 기울기 문제를 완화한다. 이미지, 벡터, NLP 작업에서 평가된 LiSHT는 ReLU, Swish 및 기타 최신 기술과 비교해 더 나은 비선형성과 안정성 덕분에 최대 9.48%의 정확도 향상을 달성한다. 이는 더 부드러운 손실 경로, 대칭적인 가중치 분포, 더 나은 활성화 역학 덕분이다.
The activation function in neural network introduces the non-linearity required to deal with the complex tasks. Several activation/non-linearity functions are developed for deep learning models. However, most of the existing activation functions suffer due to the dying gradient problem and non-utilization of the large negative input values. In this paper, we propose a Linearly Scaled Hyperbolic Tangent (LiSHT) for Neural Networks (NNs) by scaling the Tanh linearly. The proposed LiSHT is non-parametric and tackles the dying gradient problem. We perform the experiments on benchmark datasets of different type, such as vector data, image data and natural language data. We observe the superior performance using Multi-layer Perceptron (MLP), Residual Network (ResNet) and Long-short term memory (LSTM) for data classification, image classification and tweets classification tasks, respectively. The accuracy on CIFAR100 dataset using ResNet model with LiSHT is improved by 9.48, 3.40, 3.16, 4.26, and 1.17\% as compared to Tanh, ReLU, PReLU, LReLU, and Swish, respectively. We also show the qualitative results using loss landscape, weight distribution and activations maps in support of the proposed activation function.
연구 동기 및 목표
- 기존 활성화 함수인 ReLU 및 Tanh에서 발생하는 죽어가는 기울기 문제와 음수 입력의 제한된 활용 문제를 해결하기 위해.
- 비매개변수적 활성화 함수를 개발하여 비선형성을 향상시키고 대칭성과 부드러움을 유지하기 위해.
- 더 유리한 손실 경로와 균형 잡힌 가중치 분포를 만들어 훈련 안정성과 수렴성을 향상시키기 위해.
- 이를 다양한 딥러닝 작업, 즉 이미지 분류, 벡터 데이터 처리, 시퀀스 모델링에 대해 평가하기 위해.
- 기준 데이터셋에서 ReLU, Swish, PReLU, LReLU 등의 최신 기술 활성화 함수보다 뛰어난 성능을 입증하기 위해.
제안 방법
- LiSHT는 초월 함수인 hyperbolic tangent 함수를 선형적으로 스케일링하여, 기존의 유한한 출력 범위 [-1, 1]에서 무한한 출력 범위로 전환함으로써 비선형성을 향상시킨다.
- 활성화 함수는 비매개변수적이라 학습 가능한 파라미터가 없어 다양한 아키텍처 간에 안정성과 일반화 능력을 보장한다.
- 함수는 대칭적이며 부드럽고 비단조화적이므로, 음수 및 양수 입력 영역 모두에서 균형 잡힌 기울기 흐름을 촉진한다.
- 다양한 데이터셋에서 Multi-layer Perceptron (MLP), Residual Networks (ResNet), Long Short-Term Memory (LSTM) 모델을 사용해 방법을 평가한다.
- 시각적 분석에는 손실 경로 시각화(2D 및 3D), 가중치 분포 맵핑, 활성화 맵 비교가 포함되어 훈련 역학을 검증한다.
- 성능 평가를 위해 MNIST, CIFAR100, 트위터 감성 분류와 같은 기준 데이터셋에서 실험을 수행한다.
실험 결과
연구 질문
- RQ1선형 스케일링된 Tanh 버전이 ReLU 및 그 변종보다 죽어가는 기울기 문제를 더 잘 완화할 수 있는가?
- RQ2LiSHT는 깊은 신경망에서 손실 경로의 구조에 어떤 영향을 미치는가? 특히 수렴성과 비볼록성 측면에서 어떻게 되는가?
- RQ3LiSHT는 ReLU 및 Swish와 비교해 가중치 분포의 대칭성과 범위를 얼마나 향상시키는가?
- RQ4LiSHT는 합성곱 및 순환 네트워크에서 활성화 맵 품질과 특징 표현을 어떻게 향상시키는가?
- RQ5이미지, 벡터, 시퀀스 분류 작업 전반에서 LiSHT는 최신 기술 활성화 함수와 비교해 정확도에서 어떻게 뛰어나게 되는가?
주요 결과
- ResNet을 사용한 CIFAR100에서 LiSHT는 Tanh보다 9.48% 높은 정확도를 기록했으며, ReLU보다 3.40%, PReLU보다 3.16%, LReLU보다 4.26%, Swish보다 1.17% 높았다.
- LiSHT는 ReLU 및 Swish보다 더 부드럽고 볼록성이 높은 손실 경로를 생성하여 훈련 중 더 빠르고 안정적인 수렴을 가능하게 했다.
- LiSHT의 가중치 분포는 대칭적이며 절댓값 기준으로 더 높은 값까지 확장된다(예: -8에서 6), 반면 ReLU는 양수로 치우친 반면 Tanh는 -5에서 4 사이로 제한된다.
- LiSHT를 사용한 활성화 맵은 노이즈가 적고 특징 맵 전반에 걸쳐 균일한 분포를 보여, 더 나은 특징 학습을 의미한다.
- LiSHT의 1차 및 2차 도함수 분석 결과, 기존 Tanh 및 ReLU와 비교해 더 높은 비선형성을 확인할 수 있었다.
- LiSHT는 이미지 분류(ResNet) 및 시퀀스 모델링(LSTM을 사용한 트윗 데이터) 모두에서 모든 기준 모델을 앞서며 광범위한 적용 가능성을 입증했다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.