[論文レビュー] OnePiece: A Large-Scale Distributed Inference System with RDMA for Complex AI-Generated Content (AIGC) Workflows
OnePieceは、片耐 RDMA とマイクロサービス分解を用いて多段階の AIGC ワークフローを最適化する大規模分散推論システムであり、新規のダブルリングバッファ死活検知回避と弾力的リソース割り当てのための動的ノードマネージャを特徴とします。
The rapid growth of AI-generated content (AIGC) has enabled high-quality creative production across diverse domains, yet existing systems face critical inefficiencies in throughput, resource utilization, and scalability under concurrent workloads. This paper introduces OnePiece, a large-scale distributed inference system with RDMA optimized for multi-stage AIGC workflows. By decomposing pipelines into fine-grained microservices and leveraging one-sided RDMA communication, OnePiece significantly reduces inter-node latency and CPU overhead while improving GPU utilization. The system incorporates a novel double-ring buffer design to resolve deadlocks in RDMA-aware memory access without CPU involvement. Additionally, a dynamic Node Manager allocates resources elastically across workflow stages in response to real-time load. Experimental results demonstrate that OnePiece reduces GPU resource consumption by 16x in Wan2.1 image-to-video generation compared to monolithic inference pipelines, offering a scalable, fault-tolerant, and efficient solution for production AIGC environments.
研究の動機と目的
- Complex AIGCワークフローのスループット、リソース利用、スケーラビリティの向上を促進する。
- ノード間遅延とGPU競合を低減するための細粒度マイクロサービス分割を探る。
- CPUオーバーヘッドを回避しGPU利用率を高めるRDMAベースのサービス間通信を実装する。
- 動的・可変サイズデータを用いたRDMAメッセージパッシングのデッドロックレスなリングバッファ設計を導入する。
- ワークフロー各段階を横断する中央Node Managerによる弾力的・リアルタイムなリソース管理を提供する。
提案手法
- エンドツーエンドのAIGCパイプラインを地域的に自律したワークフロー集合へと分解し、細粒度のマイクロサービスに分散する。
- CPU介入を最小化するため、データ転送を直接メモリ間で行う一方通行RDMAを採用する。
- 死活なしで動的サイズのメッセージを可能にするダブルリングバッファを実装する。
- レイテンシ低下と障害耐性のためRAM/NVMeベースのデータベースをレプリケーションで運用する。
- リアルタイムの負荷に基づきGPUリソースをワークフロー段階間で弾力的に再配置するNode Managerを組み込む。
- 2つのワークフローSchedulersモード(Individual Mode と Collaboration Mode)と、それに対応するTaskWorkerの動作およびResultDeliverルーティング戦略を提供する。
- パイプライニングと負荷監視理論を適用し、段階実行時間の変動下でもエンドツーエンドのスループットを安定させる。

実験結果
リサーチクエスチョン
- RQ1RDMAベースの通信とマイクロサービス分割は、マルチステージAIGCワークロードのスループットとGPU利用率をどう向上させるか。
- RQ2CPU介在なしで動的サイズのRDMAメッセージをサポートするデッドロックレスなメッセージング機構とは何か。
- RQ3バースト負荷下で安定状態のスループットを維持するためにパイプライン段階間のリソースをどう割り当てるべきか。
- RQ4AIGCワークフローにおける多様なタスク粒度に対する効果的なスケジューリング戦略は何か。
主な発見
- OnePieceは資源効率の大幅な改善を達成し、Wan2.1の画像から動画生成におけるGPU資源使用を従来のモノリシックパイプラインと比較して16倍削減した。
- ノード間通信に片側RDMAを活用することで、ノード間の待機遅延とCPUオーバーヘッドを削減した。
- デッドロックを伴わず、動的なメッセージサイズをサポートする新規のダブルリングバッファがRDMA関連の死活を解決した。
- ノードマネージャはリアルタイムの負荷に応じてワークフロー段階間のGPUリソースを弾力的に割り当てる。
- レプリケーションを伴うメモリ中心のデータベース設計により、瞬時データライフサイクルを伴う高速な結果格納と取得を提供する。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。