Skip to main content
QUICK REVIEW

[논문 리뷰] A System for Massively Parallel Hyperparameter Tuning

Liam Li, Kevin Jamieson|arXiv (Cornell University)|2018. 10. 13.
Machine Learning and Data Classification참고 문헌 35인용 수 67
한 줄 요약

본 논문은 비동기적이며 확장 가능한 하이퍼파라미터 최적화 알고리즘 ASHA를 소개하고, 성능이 저하된 구성들을 적극적으로 조기에 중단해 대규모 병렬성을 가능하게 하며, 이를 Determined AI에 적용하는 방법에 대해 다룬다.

ABSTRACT

Modern learning models are characterized by large hyperparameter spaces and long training times. These properties, coupled with the rise of parallel computing and the growing demand to productionize machine learning workloads, motivate the need to develop mature hyperparameter optimization functionality in distributed computing settings. We address this challenge by first introducing a simple and robust hyperparameter optimization algorithm called ASHA, which exploits parallelism and aggressive early-stopping to tackle large-scale hyperparameter optimization problems. Our extensive empirical results show that ASHA outperforms existing state-of-the-art hyperparameter optimization methods; scales linearly with the number of workers in distributed settings; and is suitable for massive parallelism, as demonstrated on a task with 500 workers. We then describe several design decisions we encountered, along with our associated solutions, when integrating ASHA in Determined AI's end-to-end production-quality machine learning system that offers hyperparameter tuning as a service.

연구 동기 및 목표

  • 생산 품질의 대규모 병렬 하이퍼파라미터 최적화 시스템의 필요성을 제시한다.
  • 병렬성 및 공격적인 조기 중지를 활용하는 간단하고 견고한 알고리즘(ASHA)을 제안한다.
  • 연속적 및 병렬 설정에서 ASHA를 최첨단 방법들과 경험적으로 비교한다.
  • ASHA를 ML 플랫폼에 통합하기 위한 생산지향적 설계 결정들을 시연한다.

제안 방법

  • Successive Halving (SHA)와 직렬-대규모 환경에서의 한계를 설명한다.
  • 전체 랭크 완료를 기다리지 않고 구성을 승격하도록 ASHA를 소개한다.
  • 승격 및 작업 스케줄링 규칙을 포함하는 ASHA의 형식적 알고리즘을 제공한다.
  • SHA/ASHA를 PBT, Vizier, BOHB 및 기타 방법과 순차 및 병렬 실험에서 비교한다.
  • ASHA의 NAS 스타일 및 대규모 언어 모델 튜닝에 대한 적용 가능성을 보여준다.

실험 결과

연구 질문

  • RQ1SHA를 병렬, 대규모 환경에 맞게 어떻게 적응시켜 대기 시간을 최소화하고 처리량을 극대화할 수 있는가?
  • RQ2비동기 승격 전략(ASHA)가 분산 환경에서 동기 SHA 및 다른 베이스라인보다 우수한가?
  • RQ3ASHA가 CNN NAS 작업, RNN NAS 작업, 및 대규모 언어 모델링 작업에서 어떻게 성능을 보이는가?
  • RQ4실제 ML 플랫폼에 ASHA를 배포하기 위해 필요한 생산 설계 결정은 무엇인가?
  • RQ5실무에서 공격적인 조기 중단과 잘못된 승격에 대한 강건성에 대한 트레이드오프는 무엇인가?

주요 결과

  • ASHA는 동기 SHA보다 구성 탐색이 더 빨라졌고 여러 벤치마크에서 PBT, BOHB, Vizier를 능가한다.
  • ASHA는 작업자 수에 따라 선형으로 확장되며 분산 환경에서 상당한 속도 향상을 달성한다.
  • CNN 및 RNN 아키텍처의 NAS 벤치마크에서 대안을 능가하고, perplexity 및 정확도 지표를 향상시킨다.
  • 500개 작업자까지의 대규모 언어 모델 튜닝에서 ASHA는 약 time(R) 내에 좋은 구성을 찾고, 목표 perplexity에 대해 Vizier보다 약 3배 빠르다.
  • ASHA의 생산 지향적 설계는 실제 ML 플랫폼에서 사용성, 자동 확장, 스케줄링 및 재현성을 개선한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.