Skip to main content
QUICK REVIEW

[논문 리뷰] Descending through a Crowded Valley - Benchmarking Deep Learning Optimizers

Robin M. Schmidt, Frank Schneider|arXiv (Cornell University)|2020. 07. 03.
Mobile Crowdsensing and Crowdsourcing인용 수 48
한 줄 요약

이 논문은 15개의 인기 있는 딥 러닝 옵티마이저를 여덟 개의 과제에 걸쳐 네 가지 튜닝 예산과 네 가지 학습률 스케줄로 벤치마크하여, 옵티마이저의 성능이 과제에 의존적이며 다수의 옵티마이저를 튜닝하는 것이 단일 옵티마이저를 튜닝하는 것과 종종 비슷하다는 것을 밝힙니다. Adam은 여전히 강력한 베이스라인이지만 모든 과제에서 단일 방법이 지배적이지 않습니다.

ABSTRACT

Choosing the optimizer is considered to be among the most crucial design decisions in deep learning, and it is not an easy one. The growing literature now lists hundreds of optimization methods. In the absence of clear theoretical guidance and conclusive empirical evidence, the decision is often made based on anecdotes. In this work, we aim to replace these anecdotes, if not with a conclusive ranking, then at least with evidence-backed heuristics. To do so, we perform an extensive, standardized benchmark of fifteen particularly popular deep learning optimizers while giving a concise overview of the wide range of possible choices. Analyzing more than $50,000$ individual runs, we contribute the following three points: (i) Optimizer performance varies greatly across tasks. (ii) We observe that evaluating multiple optimizers with default parameters works approximately as well as tuning the hyperparameters of a single, fixed optimizer. (iii) While we cannot discern an optimization method clearly dominating across all tested tasks, we identify a significantly reduced subset of specific optimizers and parameter choices that generally lead to competitive results in our experiments: Adam remains a strong contender, with newer methods failing to significantly and consistently outperform it. Our open-sourced results are available as challenging and well-tuned baselines for more meaningful evaluations of novel optimization methods without requiring any further computational efforts.

연구 동기 및 목표

  • 옵티마이저 선택과 하이퍼파라미터 튜닝이 딥 러닝 학습 성능에 어떤 영향을 미치는지 평가합니다.
  • 실제 적용에서 옵티마이저를 선택하기 위한 경험적이고 증거에 기반한 지침을 제공합니다.
  • 미래의 옵티마이저와 하이퍼파라미터 전략을 평가하기 위한 개방적이고 확장 가능한 기본 데이터셋을 제공합니다.
  • 문제들 간에 기본 매개변수가 조정된 구성과 어떻게 비교되는지 강조합니다.

제안 방법

  • 8 DEEPOBS 문제에서 15개의 인기 있는 1차 최적화를 벤치마크합니다.
  • 네 가지 튜닝 예산(one-shot, small, medium, large)으로 무작위 하이퍼파라미터 검색을 평가합니다.
  • 네 가지 학습률 스케줄 적용(constant, cosine, cosine with warm restarts, trapezoidal).
  • 53,760 훈련 곡선을 여러 시드와 성능 지표로 수집합니다.
  • 미래 벤치마킹을 위한 오픈 액세스 결과 및 기본 곡선을 제공합니다.
  • 문제, 예산, 스케줄에 따른 성능 의존성 분석합니다.

실험 결과

연구 질문

  • RQ1옵티마이저 성능이 서로 다른 딥 러닝 과제에서 일반화되나요, 아니면 매우 문제 의존적입니까?
  • RQ2튜닝 예산이 기본값 사용과 비교할 때 옵티마이저의 상대 성능에 어떤 영향을 미칩니까?
  • RQ3모든 테스트된 과제에서 단일 옵티마이저가 지배적인가요, 아니면 승자는 문제에 따라 달라집니까?
  • RQ4조정되지 않은 기본값이 조정된 하이퍼파라미터나 스케줄과 함께 사용할 때도 경쟁력 있나요?

주요 결과

  • 옵티마이저의 성능은 과제에 따라 크게 달라지며 여덟 개의 문제 전체에서 보편적인 승자는 없습니다.
  • 기본 하이퍼파라미터를 가진 다수의 옵티마이저를 평가하는 것이 종종 단일 옵티마이저를 튜닝하는 것과 경쟁력이 있습니다.
  • 조정되지 않은 학습률 스케줄을 사용하는 것이 평균적으로는 도움이 되지만, 효과는 옵티마이저와 문제에 따라 다릅니다.
  • Adam(및 변형)은 일반적으로 강력한 베이스라인으로 남아 있으며, 최신 방법은 일관되게 이를 능가하지 않습니다.
  • 일부 옵티마이저는 특정 문제에서 잘 작동하지만, 결과가 과제 간에 균일하게 전이되지는 않습니다.
  • 오픈 소스 결과는 향후 옵티마이저 연구를 위한 도전적이고 잘 조정된 베이스라인을 제공합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.