QUICK REVIEW

[논문 리뷰] Noisy Softmax: Improving the Generalization Ability of DCNN via Postponing the Early Softmax Saturation

Binghui Chen, Weihong Deng|arXiv (Cornell University)|2017. 08. 12.

Advanced Neural Network Applications참고 문헌 36인용 수 30

한 줄 요약

이 논문은 딥 컨volution 네트워크(DCNNs)에서의 초기 소프트맥스 포화를 지연시키기 위해 훈련 중 소프트맥스 레이어에 점차 감소하는 노이즈를 주입하는 기법인 Noisy Softmax를 제안한다. 이로 인해 지속적인 기울기 흐름이 가능해지고 일반화 성능이 향상된다. 실험적으로는 MNIST, CIFAR, LFW, FGLFW, YTF 벤치마크에서 최신 기술(SOTA) 수준 또는 경쟁 가능한 성능을 달성하며, 모델의 강건성 향상과 과적합 감소를 입증한다.

ABSTRACT

Over the past few years, softmax and SGD have become a commonly used component and the default training strategy in CNN frameworks, respectively. However, when optimizing CNNs with SGD, the saturation behavior behind softmax always gives us an illusion of training well and then is omitted. In this paper, we first emphasize that the early saturation behavior of softmax will impede the exploration of SGD, which sometimes is a reason for model converging at a bad local-minima, then propose Noisy Softmax to mitigating this early saturation issue by injecting annealed noise in softmax during each iteration. This operation based on noise injection aims at postponing the early saturation and further bringing continuous gradients propagation so as to significantly encourage SGD solver to be more exploratory and help to find a better local-minima. This paper empirically verifies the superiority of the early softmax desaturation, and our method indeed improves the generalization ability of CNN model by regularization. We experimentally find that this early desaturation helps optimization in many tasks, yielding state-of-the-art or competitive results on several popular benchmark datasets.

연구 동기 및 목표

딥 컨volution 네트워크(DCNNs)에서의 초기 소프트맥스 포화 문제를 해결함으로써 기울기 흐름을 제한하고 SGD의 매개변수 공간 탐색 능력을 저해하는 문제를 해결하고자 한다.
포화를 연기하고 역전파 중 지속적인 매개변수 갱신을 가능하게 하여 모델의 일반화 성능을 향상시키고자 한다.
구조적 변경 없이도 간편하고 즉시 사용 가능한 방법을 도입하여 훈련 동역학을 향상시키고자 한다.
초기 탈포화가 더 나은 수렴과 과적합 감소로 이어지는지 경험적으로 검증하고자 한다.

제안 방법

각 훈련 반복 동안 소프트맥스 레이어의 입력에 점차 감소하는 노이즈를 직접 주입한다.
시간이 지남에 따라 감소하는 노이즈 스케줄링을 사용하여 훈련을 안정화하고 후기 단계에서의 간섭을 방지한다.
표준 SGD와 역전파와의 호환성을 유지하기 위해 소프트맥스 레이어만 수정함으로써 표준 기반의 훈련 방식을 유지한다.
어떤 DCNN 프레임워크에서나 표준 소프트맥스의 즉시 대체로 적용 가능한 방법을 적용한다.
노이즈 크기를 제어할 수 있는 하이퍼파라미터 α²를 도입하여 최적 성능를 위한 튜닝을 가능하게 한다.
데이터 증강 및 콘트라스트 손실과 같은 기존 기법과 조합하여 성능 향상을 도모한다.

실험 결과

연구 질문

RQ1초기 소프트맥스 포화가 SGD의 매개변수 공간 탐색 능력을 효과적으로 저해하는가?
RQ2소프트맥스 입력에 점차 감소하는 노이즈를 주입함으로써 포화를 지연시키고 기울기 전파를 향상시킬 수 있는가?
RQ3Noisy Softmax는 DCNN에서 더 나은 일반화 성능과 과적합 감소를 이끌 수 있는가?
RQ4구조적 변경 없이도 Noisy Softmax는 표준 벤치마크에서 최신 기술 성능을 달성할 수 있는가?

주요 결과

α² = 0.05로 설정한 Noisy Softmax는 CIFAR-10에서 7.39%의 오차율을 기록하여 표준 소프트맥스(8.11%)와 다른 최신 기술 방법들을 능가한다.
LFW에서 Noisy Softmax(α² = 0.1)는 99.18%의 정확도를 달성하여 베이스라인을 초월하고 최신 기술 수준의 성능을 확보한다.
YTF에서 Noisy Softmax(α² = 0.1)는 94.88%의 정확도를 기록하여 표준 소프트맥스 베이스라인(94.22%)을 뛰어넘는다.
두 개의 Noisy Softmax 모델을 앙상블하면 LFW에서 99.31%, FGLFW에서 94.43%, YTF에서 95.37%의 정확도를 달성하여 강력한 일반화 성능을 입증한다.
MNIST 및 CIFAR-100을 포함한 다양한 데이터셋에서 일관되게 성능 향상을 보이며, 이는 본 방법의 광범위한 효과를 확인한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.