Skip to main content
QUICK REVIEW

[論文レビュー] WWW.Serve: Interconnecting Global LLM Services through Decentralization

Wang, Huanyu, Xia, Ziyu|arXiv (Cornell University)|Mar 21, 2026
Big Data and Digital Economy被引用数 0
ひとこと要約

WWW.Serve は、クレジット台帳、PoSベースのルーティング、ゴシップ同期、対決・審判メカニズムを用いて、高品質で柔軟な参加を促進しつつ提供者の匿名性を保持する、グローバルな LLM サービスを相互接続する完全分散型マーケットプレイスを提案します。経験的には、動的な参加下で近い中央集権的効率性を達成し、SLO の改善と待機延遅の低減を示します。

ABSTRACT

Large language model (LLM) services are mostly centralized, leading to scalability bottlenecks and underutilization of substantial scattered GPU resources. While decentralization offers a promising alternative, existing frameworks primarily focus on cooperation among GPU providers while overlooking their inherent competitive dynamics, imposing substantial constraints such as excessive platform-level oversight or rigid requirements to execute all assigned requests using fixed software stacks on fixed hardware configurations. We argue that such assumptions are unrealistic in real-world decentralized environments. To this end, we propose WWW$.$Serve, a decentralized framework for interconnecting LLM services worldwide. It allows participants to flexibly determine their participation policies and resource commitments, and supports self-organizing request dispatch, enabling the network to autonomously allocate requests without centralized coordination. Empirically, we show that WWW$.$Serve improves global SLO (service-level-objective) attainment by up to 1.5x and lowers latency by 27.6%. Its performance approaches, and in some cases surpasses, centralized scheduling, while fully preserving the benefits of decentralization. These results highlight WWW$.$Serve as a promising foundation for real-world, decentralized LLM serving.

研究の動機と目的

  • 分散型 LLM サービングを動機づけ、中央集権的ボトルネックとグローバル GPU 資源の過少利用を解消する。
  • 提供者が自律的に参加できる、市場主導で信頼性が高く柔軟な枠組みを設計する。
  • 信頼性と品質を確保するためのメカニズム(クレジット台帳、PoS ルーティング、ゴシップ同期、対決・審判)を導入する。
  • 高品質ノードが時間とともに支配的となり、ダイナミクス下でシステムが堅牢であることをゲーム理論的に証明する。

提案手法

  • 改ざん耐性ブロックに記録するブロックチェーン風のクレジット台帳を導入する。
  • 委任リクエストのためにステークされたクレジットに比例して実行者を選択するProof-of-Stakeベースの機構を使用する。
  • 対決・審判プロセスを実装し、リクエストの一部を対になる比較で評価し、品質に応じて報酬/ペナルティを再分配する。
  • オフライン/オンライン参加を統括的な調整なしで可能とするゴシップ駆動プロトコルを採用する。
  • ユーザーレベル(提供者)でのカスタマイズとシステムレベルの安全策を提供し、インセンティブと信頼性のバランスを取る方針枠組みを提供する。
(a) System-level overview.
(a) System-level overview.

実験結果

リサーチクエスチョン

  • RQ1匿名の参加者間で中央調整者なしに、信頼できる市場主導の計算資源の取引をどう実現するか?
  • RQ2完全分散型設定で提供者を高品質な LLM サービスの提供へどうインセンティブ付けするか?
  • RQ3非常にダイナミックで予測不能な資源利用可能性の下で、システムをどのように堅牢に保つか?
  • RQ4提案されたインセンティブとルーティング機構の匿名性下での収束特性と均衡はどうなるか?

主な発見

  • 分散型 WWW.Serve は、単一ノード展開と比較してグローバル SLO の達成を最大 1.5 倍改善し、特定の設定で中央集権的スケジューリングに対して待機遅延を最大 27.6%低減します。
  • クレジットベースのシステム、PoS ルーティング、ゴシップ同期、および対決・審判機構は、分散性と提供者の匿名性を維持しつつ、ほぼ中央集権的なスケジューリング効率を達成します。
  • 実証的評価は、高品質モデル、進んだサービングシステム、およびより高速なハードウェアが、クレジット蓄積の速度と対決・審判勝率の向上と相関することを示します。
  • 動的な参加・離脱イベント下でも、中央調整なしで作業負荷を適応させ、サービス継続性を維持する堅牢性を示します。
  • ゲーム理論的分析は、優れたノードがクレジットを蓄積し、時間とともに低品質ノードを上回る高品質均衡への収束を示します。
(b) Collaborative request serving workflow.
(b) Collaborative request serving workflow.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。