Skip to main content
QUICK REVIEW

[논문 리뷰] Geometry of Optimization and Implicit Regularization in Deep Learning

Behnam Neyshabur, Ryota Tomioka|arXiv (Cornell University)|2017. 05. 08.
Advanced Numerical Analysis Techniques참고 문헌 5인용 수 89
한 줄 요약

본 논문은 최적화 기하가 심층 신경망에서 암묵적 정규화를 유도한다는 것을 주장하며, 일반화가 네트워크 크기보다는 최적화 역학에 의해 좌우된다고 보이고, 재스케일링 불변의 경로-정규화 최적화 방법인 Path-SGD를 제시한다.

ABSTRACT

We argue that the optimization plays a crucial role in generalization of deep learning models through implicit regularization. We do this by demonstrating that generalization ability is not controlled by network size but rather by some other implicit control. We then demonstrate how changing the empirical optimization procedure can improve generalization, even if actual optimization quality is not affected. We do so by studying the geometry of the parameter space of deep networks, and devising an optimization algorithm attuned to this geometry.

연구 동기 및 목표

  • 딥러닝에서 최적화를 암묵적 정규화기로서의 역할에 대해 동기를 부여한다.
  • 다양한 최적화 역학하에서 네트워크 크기가 일반화와 어떻게 관련되는지 조사한다.
  • RELU 네트워크의 일반화를 향상시키기 위한 기하학 인식 최적화 방법을 제안한다.

제안 방법

  • 입력-출력 경로의 곱으로 정의된 경로-노름과 경로-정규화자를 통해 경로 기반 정규화를 도입한다.
  • 재스케일링 불변성을 정의하고, 표준 SGD/그래디언트 디센트가 RELU 네트워크에 대해 재스케일링 불변하지 않음을 보인다.
  • 경로-정규화자에 대한 근사된 급강하(steepest descent)로서 Path-SGD 업데이트를 도출한다.
  • 모든 경로를 열거하지 않고 Path-SGD 업데이트를 계산하기 위한 효율적인 순전파-역전파 알고리즘을 제공한다.
  • MNIST, CIFAR-10/100, SVHN 실험을 통해 Path-SGD가 SGD 및 AdaGrad( dropout 유무 포함)보다 더 빨리 수렴하고 일반화 성능이 더 좋게 나타난다.

실험 결과

연구 질문

  • RQ1깊은 네트워크에서 네트워크 크기만이 일반화를 좌우하는가, 아니면 최적화에 의해 주도되는 암묵적 용량 제어가 있는가?
  • RQ2기하학 인식 최적화 방법이 귀납 바이어스와 맞물려 RELU 네트워크의 일반화를 향상시킬 수 있는가?
  • RQ3편향되지 않거나 불균형한 네트워크에서 발생하는 문제를 피하는 재스케일링 불변 최적화 알고리즘을 구축하는 것이 가능한가?
  • RQ4경로 기반 정규화가 전통적인 가중치 감소(weight decay)보다 더 나은 암묵적 정규화와 일반화를 이끄는가?
  • RQ5Path-SGD가 일반 벤치마크에서 표준 최적화 알고리즘과 어떻게 비교되는가?

주요 결과

  • 네트워크 크기를 증가시키면 학습 오차는 계속 감소할 수 있지만 테스트 오차도 감소할 수 있어, 최적화에서의 암묵적 정규화를 시사한다.
  • 경로-정규화되고 재스케일링 불변인 업데이트인 Path-SGD는 종종 SGD나 AdaGrad보다 비슷하거나 더 나은 목적 값을 달성하고 일반화도 더 잘한다.
  • Path-SGD 업데이트는 미니배치를 이용한 순전파-역전파 패스에서 효율적으로 구현될 수 있어 표준 학습 주기에 실용적이다.
  • 실험은 Path-SGD가 MNIST, CIFAR-10/100, SVHN에서 다양한 설정(균형/비균형 초기화, 드롭아웃 여부) 하에서 학습 속도와 일반화 측면에서 기준선보다 우수한 성능을 보임을 시사한다.
  • 경로-정규화자는 재스케일링에 불변이며, Path-SGD가 재스케일링 불변임이 증명되어 RELU 네트워크에 적합성을 강화한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.