Skip to main content
QUICK REVIEW

[논문 리뷰] Loss Surfaces, Mode Connectivity, and Fast Ensembling of DNNs

Timur Garipov, Pavel Izmailov|arXiv (Cornell University)|2018. 02. 27.
Advanced Neural Network Applications참고 문헌 21인용 수 212
한 줄 요약

이 논문은 심층 신경망 최적점이 간단한 저손실 곡선으로 연결되어 있음을 보이고, Fast Geometric Ensembling(FGE)을 도입하여 학습 시간은 단일 모델과 비슷한 수준으로 다양하고 고정확도의 앙상블을 구축한다.

ABSTRACT

The loss functions of deep neural networks are complex and their geometric properties are not well understood. We show that the optima of these complex loss functions are in fact connected by simple curves over which training and test accuracy are nearly constant. We introduce a training procedure to discover these high-accuracy pathways between modes. Inspired by this new geometric insight, we also propose a new ensembling method entitled Fast Geometric Ensembling (FGE). Using FGE we can train high-performing ensembles in the time required to train a single model. We achieve improved performance compared to the recent state-of-the-art Snapshot Ensembles, on CIFAR-10, CIFAR-100, and ImageNet.

연구 동기 및 목표

  • DNN 손실 지형의 기하학적 구조를 이해하고 서로 다른 최적점이 저손실 경로로 연결되는지 여부를 알아본다.
  • 모형 최적점 사이에서 높은 정확도의 경로를 찾기 위한 실용적인 방법을 개발한다.
  • 연결성에 대한 통찰을 활용하여 예측 성능을 향상시키는 효율적인 앙상블 방법을 제안한다.

제안 방법

  • 두 독립적으로 학습된 네트워크 사이의 매개 곡선(curve)에서 평균 손실을 최소화하는 곡선 찾기 절차를 제안한다.
  • 두 가중치 벡터를 연결하기 위해 다각형 체인과 Bezier 곡선 등을 곡선 매개변수화로 사용한다.
  • 곡선을 따라 샘플링하여 곡선 평균 손실을 근사하는 목적함수를 최적화한다(ell 과 l은 두 가지 변형).
  • 곡선의 양 끝점을 경로를 따라 훈련 손실과 테스트 오차가 거의 상수에 가깝게 연결될 수 있음을 보인다.

실험 결과

연구 질문

  • RQ1현대의 DNN 최적점들이 가중치 공간에서 모드를 연결하는 저손실 곡선 위에 놓여 있는가?
  • RQ2아키텍처와 데이터 세트에 걸쳐 독립적으로 학습된 네트워크 간에 신뢰할 수 있는 고정확도 경로를 발견할 수 있는가?
  • RQ3기하학적 통찰을 활용하여 더 우수하고 더 빠른 앙상블 방법을 구축할 수 있는가?
  • RQ4제안된 앙상블 방법이 표준 벤치마크에서 Snapshot Ensembles와 어떻게 비교되는가?

주요 결과

  • 최적점을 서로 잇는 단순한 곡선이 존재하며(예: 한 개의 굽이 있는 다각체인 또는 Bezier 곡선), 근사적으로 상수에 가까운 정확도를 보인다.
  • 학습 손실과 테스트 오차가 CIFAR-10/100 및 여러 아키텍처에서 모드 간 발견된 경로를 따라 낮게 유지된다.
  • 연결성 곡선상의 점들은 앙상블에 적합한 의미상으로 서로 다른 표현을 제공한다.
  • Fast Geometric Ensembling(FGE)은 동등 예산 하에서 CIFAR-10, CIFAR-100, ImageNet에서 Snapshot Ensembles 및 독립 학습보다 우수하다.
  • ImageNet의 ResNet-50에서 FGE는 단 5 에포크로 top-1 오류를 0.56% 개선했다.
  • FGE는 모델 간의 가중치 공간 스텝이 상대적으로 작으면서도 강력한 앙상블 성능을 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.