[論文レビュー] Characterization of Large Language Model Development in the Datacenter
この論文は、GPUデータセンターにおけるLLM開発の6か月間のワークロードトレース研究を提示し、LLMワークロードが従来のDLワークロードとどのように異なるかを分析し、頑健性と効率を改善するための耐障害性の事前学習と分離評価スケジューリングを提案します。
Large Language Models (LLMs) have presented impressive performance across several transformative tasks. However, it is non-trivial to efficiently utilize large-scale cluster resources to develop LLMs, often riddled with numerous challenges such as frequent hardware failures, intricate parallelization strategies, and imbalanced resource utilization. In this paper, we present an in-depth characterization study of a six-month LLM development workload trace collected from our GPU datacenter Acme. Specifically, we investigate discrepancies between LLMs and prior task-specific Deep Learning (DL) workloads, explore resource utilization patterns, and identify the impact of various job failures. Our analysis summarizes hurdles we encountered and uncovers potential opportunities to optimize systems tailored for LLMs. Furthermore, we introduce our system efforts: (1) fault-tolerant pretraining, which enhances fault tolerance through LLM-involved failure diagnosis and automatic recovery. (2) decoupled scheduling for evaluation, which achieves timely performance feedback via trial decomposition and scheduling optimization.
研究の動機と目的
- 実在データセンターにおけるLLM開発ワークロードを特徴づけ、従来のDLワークロードと比較する。
- LLMのトレーニングと評価パイプラインにおける非効率と障害の要因を特定する。
- LLM開発中の耐障害性とフィードバック待機時間を改善するためのシステムソリューションを提案する。
提案手法
- Acmeの2つのLLMクラスター(SerenとKalос)から6か月分のワークロードトレースを収集・分析し、スケジューラーログ、インフラ監視、障害ログ、プロファイリングデータを含む。
- ジョブをLLM開発ステージ(データ準備、事前学習、アラインメント、評価、デプロイメント)とワークロードタイプ(事前学習、評価、SFT、MLLM など)で分類する。
- リソース利用パターン、ジョブの期間、待機遅延、障害モードを測定し、従来のDLトレースと比較する。
- CPU、メモリ、ネットワーク、GPUを横断するインフラ利用を評価し、細粒度のDCGMカウンターやIPMI電力データを含む。
- 非同期チェックポイントと自動障害診断/復旧を備えた耐障害性のある事前学習を開発する。
- 評価のための分離スケジューリングを開発し、モデル品質のフィードバックを適時に提供し、GPUのアイドルタイムを削減する。
実験結果
リサーチクエスチョン
- RQ1LLM開発ワークロードは、期間、待機遅延、リソース使用量の観点で、従来のタスク指向のDLワークロードとどのように異なるか。
- RQ2LLM中心のデータセンター ワークロードにおける非効率、過小活用、障害の主な要因は何か。
- RQ3事前学習時の耐障害性を改善し、LLMの評価フィードバックを加速するために、システム設計の変更は可能か。
主な発見
- LLMのワークロードは、従来のDLワークロードよりはるかに短いGPUジョブ期間を示し(中央値2分)、新しいトレースではさらに短くなる。
- 評価ジョブがジョブ数を支配するがGPUリソースの小さな割合を消費し、事前学習がほとんどのGPU時間を消費する(Kal0s: 94.0%)。
- GPU利用率は極端に偏っており(しばしば0%近くまたは100%近く)、メモリ使用量も高く、GPU共有スケジューラの制約を示している。
- CPUメモリとネットワークは頻繁に過小利用され、GPUが主要リソースである一方、このことは関連リソースの過小活用と潜在的なスケジューリング/配置最適化の余地を示唤する。
- 評価オーバーヘッドには、モデルの読み込み、データ前処理、メトリック計算時間が大幅に含まれ、GPUのアイドル期間を招く。キャッシュとタスク統合で緩和できる。
- ジョブ開始時の頻繁なインフラ障害と長い起動/復旧時間がトレーニング効率を妨げ、耐障害性のある事前学習と分離評価スケジューリングを促進する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。