[論文レビュー] Photonic Rails in ML Datacenters with Opus
Opusは再構成可能な光回路スイッチと、並列性フェーズ全体で回路を時間分割する制御プレーンを用いて、鉄道最適化MLデータセンターファブリックを再構想し、限られたオーバーヘッドで大きなエネルギーとコストの削減を実現します。
Rail-optimized network fabrics have become the de facto datacenter scale-out fabric for large-scale ML training. However, the use of high-radix electrical switches to provide all-to-all connectivity in rails imposes massive power and cost. We propose a rethinking of the rail abstraction by retaining its communication semantics, but realizing it using optical circuit switches. The key challenge is that optical switches support one-to-one connectivity at a time, limiting the fan-out of traffic in ML workloads using hybrid parallelisms. We overcome this through \emph{parallelism-driven rail reconfiguration}, which exploits the non-overlapping communication phases of different parallelism dimensions. This time-multiplexes a single set of physical ports across circuit configurations tailored to each phase within a training iteration. We design and implement Opus, a control plane that orchestrates this in-job reconfiguration of photonic rails at parallelism phase boundaries, and evaluate it on a physical OCS testbed, the Perlmutter supercomputer, and in simulation at up to 2,048 GPUs. Our results show that photonic rails can achieve over $23 imes$ network power reduction and $4 imes$ cost savings while incurring less than $6\%$ training overhead at production-relevant OCS reconfiguration latencies.
研究の動機と目的
- 鉄道(rail)最適化MLデータセンターファブリックの電力とコスト削減を動機づける。
- 既存の鉄道トポロジーを維持しつつ、電気スイッチを光回路スイッチに置換することで鉄道レベルの意味を preserving する。
- ジョブ内・フェーズベースの鉄道再構成を指揮する制御プレーン(Opus)を開発する。
- ハードウェア実験とシミュレーションを通じて、MLトレーニングの性能とエネルギー/コスト節約のトレードオフを定量化する。
提案手法
- 電気鉄道スイッチを再構成可能な光回路スイッチ(OCS)に置換してフォトニックレールを形成し、既存の鉄道トポロジーを維持する。
- Opusを、アプリケーション層の制御プレーンとして開発する。構成要素は3つ:Opusシム(GPUごと)、Opusコントローラ(ジョブごと)、Opusネットワークオーケストレータ(鉄道ごと)。
- 並列性次元を横断する非重複通信フェーズを活用して、1組のポートを回路構成間で時間分割する。
- フェーズ境界をプロファイリングして、OCSの推測的プロビジョニングと安全な再構成を可能にする。
- 物理OCSテストベッド、Perlmutterスーパーコンピュータ上での実装と評価、最大2,048 GPUまでのシミュレーションを実施してオーバーヘッドと節約を測定する。
実験結果
リサーチクエスチョン
- RQ1Opusでフォトニックレールはハイブリッド並列性においてMLトレーニングの性能を鉄道最適化ファブリックのまま維持できるか。
- RQ2MLデータセンターで電気鉄道スイッチをOCSに置換した場合、ネットワークの電力とコストの潜在的な節約はどれくらいか。
- RQ3OpusがMLトレーニングの反復内で実用的になる再構成待ち時間はどれくらいか。
- RQ4Opusは複数の並列性次元にまたがるフェーズ境界再構成をどのように安全かつ効率的に管理するか。
主な発見
- Opusを用いたフォトニックレールは、電気レールと比較してネットワーク電力を23倍超削減できる。
- ネットワーキングインフラストラクチャのコストを最大4倍節約できる。
- トレーニングオーバーヘッドは、現場でのOCS再構成待機時間(≤100 ms)においても生産上の関連閾値以下である。
- 実験は物理OCSハードウェアテストベッド、Perlmutterスーパーコンピュータでのエミュレーション、最大2,048GPUまでのシミュレーションを網羅。
- Opusは、パラレルフェーズ間の待機時間をアイドルウィンドウに隠す安全で推測的なプロビジョニングとフェーズ境界再構成を実証する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。