[論文レビュー] Accelerating Diffusion via Hybrid Data-Pipeline Parallelism Based on Conditional Guidance Scheduling
要約: 本論文は、条件ベースのデータ分割と適応的パラレル可変切替をノイズ除去の乖離度に guided に組み合わせた拡散推論のハイブリッドデータパイプライン並列化を提案し、U-Net および DiT アーキテクチャ全体で画質を保ちつつ待機遅延を顕著に削減する手法を提示する。
Diffusion models have achieved remarkable progress in high-fidelity image, video, and audio generation, yet inference remains computationally expensive. Nevertheless, current diffusion acceleration methods based on distributed parallelism suffer from noticeable generation artifacts and fail to achieve substantial acceleration proportional to the number of GPUs. Therefore, we propose a hybrid parallelism framework that combines a novel data parallel strategy, condition-based partitioning, with an optimal pipeline scheduling method, adaptive parallelism switching, to reduce generation latency and achieve high generation quality in conditional diffusion models. The key ideas are to (i) leverage the conditional and unconditional denoising paths as a new data-partitioning perspective and (ii) adaptively enable optimal pipeline parallelism according to the denoising discrepancy between these two paths. Our framework achieves $2.31\times$ and $2.07\times$ latency reductions on SDXL and SD3, respectively, using two NVIDIA RTX~3090 GPUs, while preserving image quality. This result confirms the generality of our approach across U-Net-based diffusion models and DiT-based flow-matching architectures. Our approach also outperforms existing methods in acceleration under high-resolution synthesis settings. Code is available at https://github.com/kaist-dmlab/Hybridiff.
研究の動機と目的
- 拡散推論を再学習なしで品質を損なわずに加速する動機づけ。
- パッチベースのデータ並列化と静的パイプライン並列化の制約に対処。
- 条件付きガイダンスと適応スケジューリング機構を用いた二重パスのデータ分割アプローチを提案。
- アーキテクチャ(U-Net および DiT)と高解像度設定での頑健性を実証。
提案手法
- 条件ベースの分割を導入し、条件付きおよび無条件の拡散パスを複数GPUで処理して全体的な整合性を向上。
- 条件付き予測と無条件予測の差を定量化するデノイジング乖離指標(rel-MAE_t(ε_c, ε_u))を定義。
- 推論を三段階(ウォームアップ、パラレル、フルコネクティング)に分割し、乖離に基づいて直列実行と並列実行を切替。
- デノイジング中の算出乖離と安全上限を用いてスイッチング点τ1およびτ2を自動決定し、適応的ハイブリッド並列性を実現。
- 乖離の理論的解釈をスコア分解として提供し、条件情報の強さと無条件データ prior との関係を示す。
- バッチレベルまたはレイヤー単位の拡張を通じてより多くのGPUへの拡張性を示す。

実験結果
リサーチクエスチョン
- RQ1条件ベースの分割は拡散推論における境界アーティファクトを減らしつつ全体的な画像一貫性を維持できるか。
- RQ2デノイジング乖離に guided された適応スイッチングはスピードアップを向上させつつ生成品質を劣化させないか。
- RQ3この手法は異なる拡散バックボーン(U-Net、DiT)および高解像度合成に対してどの程度一般化可能か。
- RQ4並列性の間隔 k(または τ1, τ2)を praktice に変える際の速度-精度のトレードオフはどうなるか。
主な発見
- 2GPUでSDXL時に2.31×、SD3時に2.07×の待機遅延削減を達成し、画質を保持。
- 速度と精度のトレードオフにおいて既存の分散推論法を上回り、通信コストを大幅に低減。
- U-NetおよびDiTのアーキテクチャや高解像度合成タスクで頑健性を示す。
- アブレーションにより、条件ベース分割だけのハイブリッドフレームワークが全条件ベース分割より優れていることを示す。
- H200GPUを用いたSDXLの高解像度実験で、1024×1024から2560×2560まで一貫した速度向上を示す。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。