QUICK REVIEW

[논문 리뷰] Optimizing Neural Networks in the Equivalent Class Space.

Qi Meng, Wei Chen|arXiv (Cornell University)|2018. 02. 11.

Advanced Neural Network Applications참고 문헌 16인용 수 2

한 줄 요약

이 논문은 활성화 함수와 풀링 레이어의 스케일 불변성 성질에서 발생하는 중복성을 제거하기 위해, 압축된 동치 클래스 공간 내에서 신경망 최적화를 재매arameter화하는 새로운 방법인 Equivalent Class Optimization (EC-Opt)을 제안한다. 이중 차원성이 낮은 공간에서 기울기를 재구성함으로써 최소한의 계산 오버헤드로 인해 EC-Opt는 임의의 임계점의 수를 줄이고, 완전히 연결된 네트워크와 컨볼루션 네트워크 모두에서 표준 SGD보다 모델 정확도를 크게 향상시킨다.

ABSTRACT

It has been widely observed that many activation functions and pooling methods of neural network models have (positive-) rescaling-invariant property, including ReLU, PReLU, max-pooling, and average pooling, which makes fully-connected neural networks (FNNs) and convolutional neural networks (CNNs) invariant to (positive) rescaling operation across layers. This may cause unneglectable problems with their optimization: (1) different NN models could be equivalent, but their gradients can be very different from each other; (2) it can be proven that the loss functions may have many spurious critical points in the redundant weight space. To tackle these problems, in this paper, we first characterize the rescaling-invariant properties of NN models using equivalent classes and prove that the dimension of the equivalent class space is significantly smaller than the dimension of the original weight space. Then we represent the loss function in the compact equivalent class space and develop novel algorithms that conduct optimization of the NN models directly in the equivalent class space. We call these algorithms Equivalent Class Optimization (abbreviated as EC-Opt) algorithms. Moreover, we design efficient tricks to compute the gradients in the equivalent class, which almost have no extra computational complexity as compared to standard back-propagation (BP). We conducted experimental study to demonstrate the effectiveness of our proposed new optimization algorithms. In particular, we show that by using the idea of EC-Opt, we can significantly improve the accuracy of the learned model (for both FNN and CNN), as compared to using conventional stochastic gradient descent algorithms.

연구 동기 및 목표

활성화 함수와 풀링 레이어의 스케일 불변성 성질로 인한 최적화 불안정성을 해결하기 위해.
이러한 불변성으로 인해 발생하는 가중치 공간 내 잠재적 중복성을 동치 클래스를 통해 특성화하기 위해.
직접 압축된 동치 클래스 공간에서 작동하는 새로운 최적화 프레임워크를 개발하기 위해.
표준 백프로파게이션과 유사한 계산 효율성을 유지하면서도 훈련 수렴성과 정확도를 향상시키기 위해.
완전히 연결된 네트워크와 컨볼루션 네트워크에서 EC-Opt가 기존의 SGD보다 뛰어나다는 것을 경험적으로 검증하기 위해.

제안 방법

논문은 양의 스케일링 하에 네트워크 출력을 유지하는 가중치 변환을 식별함으로써 동치 클래스를 정의하고, ReLU, PReLU, 최대 풀링, 평균 풀링의 불변성을 수학적으로 기술한다.
동치 클래스 공간의 차원이 원래 가중치 공간보다 현저히 낮다는 것을 증명함으로써 최적화 중의 중복성이 감소함을 확인한다.
손실 함수를 동치 클래스 매개변수의 관점에서 재표현함으로써, 이 줄어든 공간에서 직접 최적화가 가능하게 한다.
표준 백프로파게이션을 초과하는 거의 추가 계산 비용 없이도 동치 클래스 공간에서 기울기를 계산하는 데 새로운 기법을 설계한다.
EC-Opt 알고리즘은 원래 가중치 공간에서의 중복 업데이트를 피하기 위해 동치 클래스 공간에서 직접 확률적 최적화를 수행한다.
모델 동치성을 유지하면서 안정적이고 정확한 훈련을 가능하게 하기 위해 효율적인 매개변수화 및 투영 메커니즘을 도입한다.

실험 결과

연구 질문

RQ1일반적인 신경망 구성 요소의 스케일 불변성 성질은 동치 가중치 클래스의 관점에서 어떻게 수학적으로 특성화될 수 있는가?
RQ2완전히 연결된 네트워크와 컨볼루션 네트워크에서 동치 클래스 공간의 차원은 원래 가중치 공간에 비해 어떻게 되는가?
RQ3동치 클래스 공간에서의 최적화는 비합리적인 임계점의 수를 줄이고 훈련 동역학을 향상시킬 수 있는가?
RQ4EC-Opt는 수렴 속도와 최종 모델 정확도 측면에서 표준 SGD와 비교해 어떻게 성능을 냈는가?
RQ5표준 백프로파게이션에 비해 동치 클래스 공간에서 기울기를 계산하는 데에는 어떤 계산 오버헤드가 발생하는가?

주요 결과

동치 클래스 공간의 차원은 원래 가중치 공간보다 현저히 낮아 최적화 중의 중복성이 상당히 크다는 것이 확인되었다.
EC-Opt는 중복 자유도를 제거함으로써 손실 곡면 내 비합리적인 임계점의 수를 줄였다.
표준 백프로파게이션과 비교해 거의 추가 계산 비용 없이 동치 클래스 공간에서의 기울기 계산 기법이 제안되었다.
EC-Opt는 완전히 연결된 네트워크와 컨볼루션 네트워크 양쪽에서 표준 SGD보다 더 높은 모델 정확도를 달성했다.
다양한 벤치마크 작업 전반에서 정확도 향상 효과가 일관되게 나타나 이 방법의 일반화 가능성은 입증되었다.
이 방법은 표준 딥 러닝 아키텍처와 호환되며, 아키텍처 변경 없이도 적용 가능하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.