QUICK REVIEW

[논문 리뷰] WWW.Serve: Interconnecting Global LLM Services through Decentralization

Wang, Huanyu, Xia, Ziyu|arXiv (Cornell University)|2026. 03. 21.

Big Data and Digital Economy인용 수 0

한 줄 요약

WWW.Serve는 신용 원장, PoS 기반 라우팅, 가십 동기화, 그리고 듀얼-앤-저지 메커니즘을 사용하여 글로벌 LLM 서비스를 상호 연결하는 완전 분산형 시장을 제안합니다. 이를 통해 고품질이고 유연한 참여를 장려하면서 공급자 익명성을 보존합니다. 실증적으로 동적 참여 하에서 중앙화에 근접한 효율성과 향상된 SLO 및 더 낮은 지연을 달성합니다.

ABSTRACT

Large language model (LLM) services are mostly centralized, leading to scalability bottlenecks and underutilization of substantial scattered GPU resources. While decentralization offers a promising alternative, existing frameworks primarily focus on cooperation among GPU providers while overlooking their inherent competitive dynamics, imposing substantial constraints such as excessive platform-level oversight or rigid requirements to execute all assigned requests using fixed software stacks on fixed hardware configurations. We argue that such assumptions are unrealistic in real-world decentralized environments. To this end, we propose WWW$.$Serve, a decentralized framework for interconnecting LLM services worldwide. It allows participants to flexibly determine their participation policies and resource commitments, and supports self-organizing request dispatch, enabling the network to autonomously allocate requests without centralized coordination. Empirically, we show that WWW$.$Serve improves global SLO (service-level-objective) attainment by up to 1.5x and lowers latency by 27.6%. Its performance approaches, and in some cases surpasses, centralized scheduling, while fully preserving the benefits of decentralization. These results highlight WWW$.$Serve as a promising foundation for real-world, decentralized LLM serving.

연구 동기 및 목표

분산형 LLM 서비스 도입으로 중앙 집중 bottleneck과 전세계 GPU 자원의 저활용 문제를 해결한다.
공급자가 자율적으로 참여할 수 있는 시장 주도적이고 신뢰할 수 있으며 유연한 프레임워크를 설계한다.
신뢰성 및 품질을 보장하기 위해 신용 원장, PoS 라우팅, 가십 동기화, 듀얼-앤-저지 메커니즘을 도입한다.
게임 이론적으로 고품질 노드가 시간에 따라 지배하고 다이나믹스 하에서도 시스템이 강건함을 증명한다.

제안 방법

변조 방지 가능한 블록에 스테이킹 및 보상을 기록하는 블록체인에서 영감을 받은 신용 원장을 도입한다.
위임된 요청에 대해 스테이킹된 크레딧에 비례하여 실행자를 선택하는 PoS 기반 메커니즘을 사용한다.
일부 요청이 쌍대 비교를 거쳐 품질에 따라 보상/처벌이 재분배되는 듀얼-앤-저지 과정을 구현한다.
중앙 집중 koordinación 없이 오프라인/온라인 참여를 수용하기 위해 가십 중심 프로토콜을 도입한다.
사용자 수준(공급자) 맞춤화 및 시스템 수준 안전장치를 제공하여 인센티브와 신뢰성의 균형을 맞춘 정책 프레임워크를 제공한다.

실험 결과

연구 질문

RQ1우편중앙 코디네이터 없이 익명 참가자 간의 신뢰할 수 있는 시장 기반 컴퓨팅 용량 거래를 어떻게 가능하게 할 수 있는가?
RQ2완전한 분산 환경에서 공급자가 고품질 LLM 서비스를 제공하도록 어떻게 인센티브를 제공할 수 있는가?
RQ3매우 동적이고 예측 불가능한 자원 가용성 하에서 시스템은 어떻게 강건하게 유지될 수 있는가?
RQ4익명성 하에서 제안된 인센티브 및 라우팅 메커니즘의 수렴 특성과 균형은 무엇인가?

주요 결과

분산형 WWW.Serve는 단일 노드 배포에 비해 글로벌 SLO 달성에서 최대 1.5배의 개선을 달성하고 특정 설정에서 중앙집중 스케줄링에 비해 지연을 최대 27.6% 감소시킨다.
크레딧 기반 시스템, PoS 라우팅, 가십 동기화, 듀얼-앤-저지 메커니즘은 분산화를 유지하면서도 거의 중앙집중된 스케줄링 효율을 달성하고 공급자 익명성을 보존한다.
경험적 평가에 따르면 더 높은 품질의 모델, 고급 제공 시스템, 더 빠른 하드웨어가 크레딧 축적 속도와 듀얼-앤-저지 승률 향상과 상관관계가 있다.
시스템은 동적으로 합류/탈퇴 이벤트에 견고하게 유지되며 중앙 집중 조정 없이 서비스 연속성을 유지하도록 워크로드를 적응시킨다.
게임 이론적 분석은 우수 노드가 크레딧을 축적하고 시간에 따라 저품질 노드를 능가하는 고품질 균형으로 수렴함을 보여준다.

(b) Collaborative request serving workflow.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.