Skip to main content
QUICK REVIEW

[논문 리뷰] Across-Stack Profiling and Characterization of Machine Learning Models on GPUs.

Cheng Li, Abdul Dakkak|arXiv (Cornell University)|2019. 08. 19.
Parallel Computing and Optimization Techniques참고 문헌 15인용 수 6
한 줄 요약

이 논문은 분산 추적과 반복 측정을 활용하여 프로파일링 오버헤드를 최소화함으로써 전체 하드웨어/소프트웨어 스택 전반에서 기계학습 모델 성능에 대한 통합적이고 계층적인 시각을 제공하는 XSP라는 스택 간 프로파일링 프레임워크를 제안한다. 이는 65개의 최신 기술 모델에 걸쳐 정확한 지연 시간 특성 분석을 가능하게 하여 스택 수준의 상호의존성로 인해 기존에는 파악하기 어려웠던 통찰을 드러낸다.

ABSTRACT

There has been a rapid proliferation of machine learning/deep learning (ML) models and wide adoption of them in many application domains. This has made profiling and characterization of ML model performance an increasingly pressing task for both hardware designers and system providers, as they would like to offer the best possible system to serve ML models with the target latency, throughput, cost, and energy requirements while maximizing resource utilization. Such an endeavor is challenging as the characteristics of an ML model depend on the interplay between the model, framework, system libraries, and the hardware (or the HW/SW stack). Existing profiling tools are disjoint, however, and only focus on profiling within a particular level of the stack, which limits the thoroughness and usefulness of the profiling results. This paper proposes XSP - an across-stack profiling design that gives a holistic and hierarchical view of ML model execution. XSP leverages distributed tracing to aggregate and correlates profile data from different sources. XSP introduces a leveled and iterative measurement approach that accurately captures the latencies at all levels of the HW/SW stack in spite of the profiling overhead. We couple the profiling design with an automated analysis pipeline to systematically analyze 65 state-of-the-art ML models. We demonstrate that XSP provides insights which would be difficult to discern otherwise.

연구 동기 및 목표

  • 기계학습 하드웨어/소프트웨어 스택 전반에서의 성능 프로파일링이 불완전하고 분리되어 있는 문제를 해결함으로써 지연 시간, 처리량, 비용, 에너지 효율성 향상의 최적화를 제한하는 데 목적이 있다.
  • 모델, 프레임워크, 라이브러리, 하드웨어 등의 다양한 스택 레이어에서의 프로파일링 데이터를 연동하여 기계학습 모델 실행에 대한 통합적이고 계층적인 시각을 제공하는 데 목적이 있다.
  • 반복 측정 전략을 통해 모든 스택 레벨에서의 지연 시간 측정 정확도를 유지하면서도 프로파일링 오버헤드를 최소화하는 데 목적이 있다.
  • 프로파일링을 자동 분석 파이프라인과 결합하여 다양한 기계학습 모델에 대한 체계적인 분석을 가능하게 하는 데 목적이 있다.
  • 기존의 고립된 프로파일링 도구로는 파악하기 어려운 스택 전반에 걸친 성능 저하 요인과 상호의존성을 드러내는 데 목적이 있다.

제안 방법

  • XSP는 모델, 딥러닝 프레임워크, 시스템 라이브러리, GPU 하드웨어 등의 기계학습 스택 레이어에서의 성능 데이터를 집계하고 연동하기 위해 분산 추적을 사용한다.
  • 스택 레벨 전반에서 정확한 지연 시간 측정을 가능하게 하면서도 프로파일링 오버헤드를 최소화하는 수준화된 반복 측정 전략을 구현한다.
  • 각 스택 레이어에서 기존 프로파일링 도구와 통합하고 추적 식별자를 사용하여 데이터를 동기화함으로써 다층 간 연동을 가능하게 한다.
  • 집계된 데이터를 처리하기 위한 자동 분석 파이프라인이 65개의 최신 기술 기계학습 모델 전반에서 성능 특성을 추출한다.
  • 최소한의 런타임 간섭을 통해 동적 프로파일링을 지원하여 실제 실행 동작의 정확한 표현을 보장한다.
  • 실행을 스택 레벨 구성 요소로 분해하고 각 구성 요소가 종단 간 지연 시간에 기여하는 바를 측정함으로써 계층적 분석을 가능하게 한다.

실험 결과

연구 질문

  • RQ1전체 기계학습 스택 전반에서의 성능 프로파일링을 어떻게 통합하여 모델 실행에 대한 통합적 시각을 제공할 수 있는가?
  • RQ2프로파일링 오버헤드가 정확도에 미치는 영향은 무엇이며, 측정 정밀도를 훼손하지 않으면서 이를 어떻게 최소화할 수 있는가?
  • RQ3하드웨어 및 소프트웨어 레이어 전반에서 기계학습 모델을 분석할 때 어떤 성능 저하 요인과 상호의존성이 드러나는가?
  • RQ4다양한 기계학습 모델은 스택 전반에서 지연 시간 분포에 어떻게 차이를 보이며, 어떤 패턴을 식별할 수 있는가?
  • RQ5고립된 프로파일링으로는 파악할 수 없지만 스택 간 통합 프로파일링을 통해 드러나는 시스템 최적화에 대한 통찰은 무엇인가?

주요 결과

  • XSP는 프로파일링 오버헤드를 최소화하면서도 모든 하드웨어/소프트웨어 스택 레벨에서 정확한 지연 시간 측정을 성공적으로 수행한다.
  • 프레임워크 수준의 연산과 GPU 커널 실행 간의 상호의존성 등, 이전에는 드러나지 않았던 여러 스택 레이어를 아우르는 성능 저하 요인을 드러낸다.
  • 스택 간 연동을 통해 고립된 프로파일링에서 볼 수 없었던, 프레임워크 수준 연산과 GPU 커널 실행 간의 상호의존성이 드러난다.
  • 자동 분석 파이프라인이 65개의 최신 기술 기계학습 모델 전반에서 일관된 성능 패턴을 식별하였으며, 계산 대 메모리 비율의 변동성과 연산자 수준의 지연 시간 분포 등이 포함된다.
  • 기존의 프로파일링 도구로는 파악하기 어려운 최적화 기회—예를 들어 커널 융합 및 메모리 액세스 최적화—를 XSP가 탐지할 수 있다.
  • 반복 측정 전략 덕분에 실제 워크로드 상황에서도 높은 정확도를 확보하여 프레임워크의 신뢰성과 시스템 설계 및 튜닝에의 적용 가능성을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.