Skip to main content
QUICK REVIEW

[논문 리뷰] WWW.Serve: Interconnecting Global LLM Services through Decentralization

Wang, Huanyu, Xia, Ziyu|arXiv (Cornell University)|2026. 03. 21.
Big Data and Digital Economy인용 수 0
한 줄 요약

WWW.Serve는 신용 원장, PoS 기반 라우팅, 가십 동기화, 그리고 듀얼-앤-저지 메커니즘을 사용하여 글로벌 LLM 서비스를 상호 연결하는 완전 분산형 시장을 제안합니다. 이를 통해 고품질이고 유연한 참여를 장려하면서 공급자 익명성을 보존합니다. 실증적으로 동적 참여 하에서 중앙화에 근접한 효율성과 향상된 SLO 및 더 낮은 지연을 달성합니다.

ABSTRACT

Large language model (LLM) services are mostly centralized, leading to scalability bottlenecks and underutilization of substantial scattered GPU resources. While decentralization offers a promising alternative, existing frameworks primarily focus on cooperation among GPU providers while overlooking their inherent competitive dynamics, imposing substantial constraints such as excessive platform-level oversight or rigid requirements to execute all assigned requests using fixed software stacks on fixed hardware configurations. We argue that such assumptions are unrealistic in real-world decentralized environments. To this end, we propose WWW$.$Serve, a decentralized framework for interconnecting LLM services worldwide. It allows participants to flexibly determine their participation policies and resource commitments, and supports self-organizing request dispatch, enabling the network to autonomously allocate requests without centralized coordination. Empirically, we show that WWW$.$Serve improves global SLO (service-level-objective) attainment by up to 1.5x and lowers latency by 27.6%. Its performance approaches, and in some cases surpasses, centralized scheduling, while fully preserving the benefits of decentralization. These results highlight WWW$.$Serve as a promising foundation for real-world, decentralized LLM serving.

연구 동기 및 목표

  • 분산형 LLM 서비스 도입으로 중앙 집중 bottleneck과 전세계 GPU 자원의 저활용 문제를 해결한다.
  • 공급자가 자율적으로 참여할 수 있는 시장 주도적이고 신뢰할 수 있으며 유연한 프레임워크를 설계한다.
  • 신뢰성 및 품질을 보장하기 위해 신용 원장, PoS 라우팅, 가십 동기화, 듀얼-앤-저지 메커니즘을 도입한다.
  • 게임 이론적으로 고품질 노드가 시간에 따라 지배하고 다이나믹스 하에서도 시스템이 강건함을 증명한다.

제안 방법

  • 변조 방지 가능한 블록에 스테이킹 및 보상을 기록하는 블록체인에서 영감을 받은 신용 원장을 도입한다.
  • 위임된 요청에 대해 스테이킹된 크레딧에 비례하여 실행자를 선택하는 PoS 기반 메커니즘을 사용한다.
  • 일부 요청이 쌍대 비교를 거쳐 품질에 따라 보상/처벌이 재분배되는 듀얼-앤-저지 과정을 구현한다.
  • 중앙 집중 koordinación 없이 오프라인/온라인 참여를 수용하기 위해 가십 중심 프로토콜을 도입한다.
  • 사용자 수준(공급자) 맞춤화 및 시스템 수준 안전장치를 제공하여 인센티브와 신뢰성의 균형을 맞춘 정책 프레임워크를 제공한다.
(a) System-level overview.
(a) System-level overview.

실험 결과

연구 질문

  • RQ1우편중앙 코디네이터 없이 익명 참가자 간의 신뢰할 수 있는 시장 기반 컴퓨팅 용량 거래를 어떻게 가능하게 할 수 있는가?
  • RQ2완전한 분산 환경에서 공급자가 고품질 LLM 서비스를 제공하도록 어떻게 인센티브를 제공할 수 있는가?
  • RQ3매우 동적이고 예측 불가능한 자원 가용성 하에서 시스템은 어떻게 강건하게 유지될 수 있는가?
  • RQ4익명성 하에서 제안된 인센티브 및 라우팅 메커니즘의 수렴 특성과 균형은 무엇인가?

주요 결과

  • 분산형 WWW.Serve는 단일 노드 배포에 비해 글로벌 SLO 달성에서 최대 1.5배의 개선을 달성하고 특정 설정에서 중앙집중 스케줄링에 비해 지연을 최대 27.6% 감소시킨다.
  • 크레딧 기반 시스템, PoS 라우팅, 가십 동기화, 듀얼-앤-저지 메커니즘은 분산화를 유지하면서도 거의 중앙집중된 스케줄링 효율을 달성하고 공급자 익명성을 보존한다.
  • 경험적 평가에 따르면 더 높은 품질의 모델, 고급 제공 시스템, 더 빠른 하드웨어가 크레딧 축적 속도와 듀얼-앤-저지 승률 향상과 상관관계가 있다.
  • 시스템은 동적으로 합류/탈퇴 이벤트에 견고하게 유지되며 중앙 집중 조정 없이 서비스 연속성을 유지하도록 워크로드를 적응시킨다.
  • 게임 이론적 분석은 우수 노드가 크레딧을 축적하고 시간에 따라 저품질 노드를 능가하는 고품질 균형으로 수렴함을 보여준다.
(b) Collaborative request serving workflow.
(b) Collaborative request serving workflow.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.