[논문 리뷰] TBD: Benchmarking and Analyzing Deep Neural Network Training
논문은 다양한 도메인과 프레임워크에 걸친 DNN 학습을 위한 새로운 TBD 벤치마크 스위트와 메모리 프로파일링 툴체인을 제안하고, TensorFlow, MXNet, CNTK에서 다양한 하드웨어 구성에 따른 성능을 분석한다.
The recent popularity of deep neural networks (DNNs) has generated a lot of research interest in performing DNN-related computation efficiently. However, the primary focus is usually very narrow and limited to (i) inference -- i.e. how to efficiently execute already trained models and (ii) image classification networks as the primary benchmark for evaluation. Our primary goal in this work is to break this myopic view by (i) proposing a new benchmark for DNN training, called TBD (TBD is short for Training Benchmark for DNNs), that uses a representative set of DNN models that cover a wide range of machine learning applications: image classification, machine translation, speech recognition, object detection, adversarial networks, reinforcement learning, and (ii) by performing an extensive performance analysis of training these different applications on three major deep learning frameworks (TensorFlow, MXNet, CNTK) across different hardware configurations (single-GPU, multi-GPU, and multi-machine). TBD currently covers six major application domains and eight different state-of-the-art models. We present a new toolchain for performance analysis for these models that combines the targeted usage of existing performance analysis tools, careful selection of new and existing metrics and methodologies to analyze the results, and utilization of domain specific characteristics of DNN training. We also build a new set of tools for memory profiling in all three major frameworks; much needed tools that can finally shed some light on precisely how much memory is consumed by different data structures (weights, activations, gradients, workspace) in DNN training. By using our tools and methodologies, we make several important observations and recommendations on where the future research and optimization of DNN training should be focused.
연구 동기 및 목표
- 추론과 이미지 분류를 넘어서는 광범위한 DNN 학습 벤치마크의 필요성을 동기화한다.
- 다양한 도메인(image classification, translation, speech, object detection, adversarial nets, reinforcement learning)을 포괄하는 대표 벤치마크 세트 TBD로 정의한다.
- DNN 학습에 대한 주요 프레임워크 및 하드웨어 구성에 걸친 엔드-투-엔드 성능 분석 도구 체인을 개발한다.
- 가중치, 활성화, 그래디언트, 그리고 작업공간의 메모리 사용량을 정량화하기 위한 메모리 프로파일링 도구를 개발한다(TensorFlow, MXNet, CNTK).
- DNN 학습에서 향후 연구 및 최적화를 안내하기 위한 결과 및 권고를 제공한다.
제안 방법
- TensorFlow, MXNet, CNTK 전반에 걸친 여섯 도메인과 여덟 개의 최첨단 모델로 광범위한 벤치마크 스위트를 선별한다.
- 단일-GPU, 다중-GPU, 다중 머신 설정에서 학습 성능을 평가한다.
- 도메인별 메트릭과 함께 기존 프로파일러를 통합하여 엔드-투-엔드 분석 도구체인을 구성한다.
- 가중치, 활성화, 그래디언트, 작업공간에 메모리 사용량을 귀속시키기 위해 세 가지 주요 프레임워크에 대한 메모리 프로파일러를 개발한다.
- 프레임워크 간 구현을 표준화하여 하이퍼파라미터 및 네트워크 정의를 비교 가능하게 한다.
실험 결과
연구 질문
- RQ1다른 모델, 프레임워크, 하드웨어 구성에서 DNN 학습의 주요 병목은 무엇인가?
- RQ2데이터 구조(가중치, 활성화, 그래디언트, 작업공간)와 프레임워크 간 학습 시 메모리 사용은 어떻게 다른가?
- RQ3다양한 학습 워크로드에 대해 프레임워크(TensorFlow, MXNet, CNTK) 간 처리량과 GPU 활용도는 어떻게 다르게 나타나는가?
- RQ4DNN 학습 성능 및 메모리 효율성을 개선하기 위한 실행 가능한 권고는 무엇인가?
주요 결과
- RNN 학습은 이미지 분류 모델에 비해 GPU 활용도가 2–3x 낮다.
- GPU 메모리는 종종 미활용; 큰 미니배치로 메모리를 소진하는 것만으로는 많은 모델에서 이익이 제한적이다.
- 피처 맵은 학습 중 전체 메모리의 70–90%를 차지하며, 추론의 경우 가중치가 메모리를 지배하는 것과 대조적이다.
- 새로운 메모리 프로파일링 도구는 프레임워크 전반의 가중치, 그래디언트, 피처 맵, 작업공간에 대한 정확한 할당을 보여준다.
- TBD 벤치마크 및 도구는 DNN 학습의 응용, 라이브러리, 하드웨어 최적화를 위한 방향을 제공한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.