Skip to main content
QUICK REVIEW

[논문 리뷰] NSML: Meet the MLaaS platform with a real-world case study

Hanjoo Kim, Minkyu Kim|arXiv (Cornell University)|2018. 10. 08.
Scientific Computing and Data Management참고 문헌 22인용 수 109
한 줄 요약

NSML은 엔터프라이즈 규모의 ML 작업을 위한 환경 설정, 리소스 관리, 협업 및 배포를 단순화하도록 설계된 MLaaS 플랫폼이다; 실제 사례 연구와 대회를 통해 유용성을 입증한다.

ABSTRACT

The boom of deep learning induced many industries and academies to introduce machine learning based approaches into their concern, competitively. However, existing machine learning frameworks are limited to sufficiently fulfill the collaboration and management for both data and models. We proposed NSML, a machine learning as a service (MLaaS) platform, to meet these demands. NSML helps machine learning work be easily launched on a NSML cluster and provides a collaborative environment which can afford development at enterprise scale. Finally, NSML users can deploy their own commercial services with NSML cluster. In addition, NSML furnishes convenient visualization tools which assist the users in analyzing their work. To verify the usefulness and accessibility of NSML, we performed some experiments with common examples. Furthermore, we examined the collaborative advantages of NSML through three competitions with real-world use cases.

연구 동기 및 목표

  • 환경 설정, 의존성 관리, 협업 및 확장 가능한 자원 활용을 다루는 통합 ML 플랫폼의 필요성을 고취한다.
  • 자동 리소스 할당, 스케줄링, 데이터/모델 공유, 모니터링, 하이퍼파라미터 튜닝 및 리더보드를 지원하는 실용적인 MLaaS 솔루션으로 NSML을 제안한다.
  • 실제 사례 연구와 대회를 통해 NSML의 사용성 및 견고성을 검증한다.

제안 방법

  • 리소스 관리(스케줄러, 가상화)와 사용자 상호작용(CLI/웹 UI)의 두 모듈 시스템으로 NSML을 소개한다.
  • 데이터 배치와 GPU 사용을 최적화하기 위해 지역성 인식 스케줄링 및 잔여 자원 조각해소를 구현한다.
  • 사용자와 관리자를 위한 경고 및 대시보드를 갖춘 세션 및 자원 모니터링을 제공한다.
  • 협업을 위한 온디맨드 데이터셋 로딩 및 비공개/공개 공유를 포함한 데이터셋 관리 제공.
  • 세션 비교 및 진행 상황 추적을 위한 웹 기반 시각화 인터페이스(Visdom/TensorBoard)를 제공한다.
  • 병렬 하이퍼파라미터 튜닝을 지원한다(그리드/랜덤 탐색 및 인구 기반 훈련과 같은 고급 방법).

실험 결과

연구 질문

  • RQ1통합 MLaaS 플랫폼이 엔터프라이즈 규모의 ML 작업에서 환경 설정, 협업 및 자원 활용을 어떻게 개선할 수 있는가?
  • RQ2NSML의 스케줄링, 모니터링 및 시각화 도구가 팀 간의 효율적인 실험 및 재현성을 가능하게 할 수 있는가?
  • RQ3NSML에서의 대회 및 실제 사례 연구가 사용 용이성, 견고성, 그리고 ML 모델의 상용화 가능성을 보여주는가?
  • RQ4NSML의 한계는 무엇이며 향후 필요한 개선점은 무엇인가(데이터셋 버전 관리, 다중 데이터셋 작업, 고급 시각화, 분산 학습)?

주요 결과

  • NSML은 GPU 클러스터를 이용한 효율적인 자원 관리가 가능하여 높은 활용도와 확장 가능한 실험을 가능하게 한다.
  • 플랫폼은 데이터셋 공유, 팀 워크스페이스, 재현 가능한 세션을 통해 협업을 지원한다.
  • NSML은 모델 및 하이퍼파라미터를 분석하고 비교하기 위한 여러 인터페이스(CLI 및 웹)와 시각화 도구(Visdom/TensorBoard)를 제공한다.
  • NSML의 세 가지 ML 대회는 사용성을 입증했고 최적 모델이 실제 고객 서비스에서 베이스라인을 개선할 수 있음을 보여주었다.
  • 모니터링 도구가 GPU 활용 인식을 향상시키고 사용자가 코드 최적화를 통해 자원 효율을 향상시키도록 도왔다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.