Skip to main content
QUICK REVIEW

[논문 리뷰] Beyond Gemini-3-Pro: Revisiting LLM Routing and Aggregation at Scale

Shengji Tang, Weihao Lin|arXiv (Cornell University)|2026. 01. 04.
Topic Modeling인용 수 0
한 줄 요약

JiSi는 학습 없이도 작동하는 오픈 소스 LLM 협업 프레임워크로, 쿼리-응답 라우팅, 지원 집합 기반 애그리게이터 선택, 적응형 라우팅-애그리게이션 스위칭을 결합하여 9개 벤치마크에서 10개의 오픈 소스 LLM을 조정해 Gemini-3-Pro 대비 비용을 47% 절감하며 능력을 초과합니다.

ABSTRACT

Large Language Models (LLMs) have rapidly advanced, with Gemini-3-Pro setting a new performance milestone. In this work, we explore collective intelligence as an alternative to monolithic scaling, and demonstrate that open-source LLMs' collaboration can surpass Gemini-3-Pro. We first revisit LLM routing and aggregation at scale and identify three key bottlenecks: (1) current train-free routers are limited by a query-based paradigm focusing solely on textual similarity; (2) recent aggregation methods remain largely static, failing to select appropriate aggregators for different tasks;(3) the complementarity of routing and aggregation remains underutilized. To address these problems, we introduce JiSi, a novel framework designed to release the full potential of LLMs' collaboration through three innovations: (1) Query-Response Mixed Routing capturing both semantic information and problem difficulty; (2) Support-Set-based Aggregator Selection jointly evaluating the aggregation and domain capacity of aggregators; (3) Adaptive Routing-Aggregation Switch dynamically leveraging the advantages of routing and aggregation. Comprehensive experiments on nine benchmarks demonstrate that JiSi can surpass Gemini-3-Pro with only 47% costs by orchestrating ten open-source LLMs, while outperforming mainstream baselines. It suggests that collective intelligence represents a novel path towards Artificial General Intelligence (AGI).

연구 동기 및 목표

  • AGI 유사 능력에 대한 단일화된 확장 대신 집단 지능 탐색의 타당성 모색.
  • 다수의 오픈 소스 LLM으로 확장할 때 최첨단 라우팅 및 집계 방법의 병목 현상 식별.
  • 깊은 시맨틱스, 작업 난이도, 도메인 지식을 활용하기 위한 최소한의 JiSi 프레임워크 제안.
  • JiSi로 10개의 오픈 소스 LLM을 조합하면 폐쇄형 모델 및 벤치마인드보다 성능이 우수하고 비용도 감소함을 입증.

제안 방법

  • 깊은 시맨틱스와 작업 난이도를 반영하기 위해 LLM이 생성한 응답 및 토큰 비용으로 파악하는 쿼리-응답 혼합 라우팅의 세 가지 핵심 혁신 도입.
  • 대규모 임베딩 지원 세트를 사용하여 도메인 특화 및 일반적 역량을 가진 애그리게이터를 동적으로 선택하는 지원 집합 기반 애그리게이터 선택 제안.
  • 정제된 사전 점수 및 응답 품질을 바탕으로 라우팅과 애그리 게이션 사이를 전환하는 적응형 라우팅-애그리게이션 스위치 도입으로 노이즈 억제.

실험 결과

연구 질문

  • RQ1JiSi로 조정된 오픈 소스 LLM이 Gemini-3-Pro와 같은 선도적 폐쇄형 LLM을 다양한 벤치마크에서 능가할 수 있는가?
  • RQ2라우팅, 애그리게이션 및 이들의 조합이 고정된 일회성 전략이 아닌 적응적이고 작업 인식적 메커니즘으로부터 이익을 얻는가?
  • RQ3쿼리-응답 신호를 활용한 임베딩 뱅크 기반의 학습 없는 접근 방식이 많은 오픈 소스 모델들로 확장하면서 비용을 줄일 수 있는가?
  • RQ4제안된 구성요소가 정확도, 효율성, 확장성에 미치는 영향은 어떠한가?
  • RQ5 JiSi의 비용 효율성은 독점 LLM과 비교하여 어떤 시사점을 가지는가?

주요 결과

모델AIMEArena-HardGPQAHLELiveCodeBenchLiveMathBenchMMLU-ProSimpleQASWE-bench평균
DeepSeek-R1-052872.2264.8978.3316.6776.0372.9784.6728.6625.3357.75
DeepSeek-V3-032438.8959.5668.333.7061.5159.4678.4426.4324.0046.70
DeepSeek-V3.1-Terminus55.5664.6778.338.6464.6767.5784.5625.1226.0052.79
GLM-4.688.8969.5680.0014.2058.9964.8680.8925.8922.6756.22
Intern-S138.8968.0070.009.7246.6959.4683.0014.338.0044.23
Kimi-K2-090572.2272.2271.675.0962.1575.6880.7830.6624.0054.94
DeepSeek-V3.2-Thinking88.8962.4488.3324.6983.9178.3887.3327.8124.6762.94
DeepSeek-V3.2-Speciale94.4455.3383.3327.1686.7575.6887.4439.5240.6765.59
Qwen3-235B-A22B-250777.7875.3355.009.4158.3672.9783.7854.0116.6755.92
Qwen3-235B-A22B-Thinking-250772.2277.7880.007.5675.7148.6580.5649.3120.0056.87
Claude-Sonnet-441.1155.4771.334.6056.8562.1683.5815.5835.3347.33
Claude-Sonnet-4.527.7864.0071.677.5660.5759.4686.3316.1834.0047.51
Grok-488.8956.8988.3324.4281.0375.6886.5648.3827.3364.17
GPT-583.3367.1188.3325.7784.5478.3887.2248.0016.0064.30
GPT-5.2-Thinking83.3385.7893.3329.9490.5078.3886.6735.2112.6766.20
Gemini-3-Pro94.4474.5591.6733.0289.5978.3889.3370.0318.0071.00
JiSi w/o Adaptive Aggregation94.4486.4485.0030.0989.2778.3887.4451.4637.3371.09
JiSi (Our JiSi)94.4488.4486.6727.6289.2781.0886.7853.7041.3372.15
  • JiSi는 9개 벤치마크에서 Gemini-3-Pro를 평균 성능으로 능가하면서 비용을 53.23% 절감합니다.
  • JiSi는 보고된 결과에서 모든 오픈 소스 LLM, 라우터 벤치마크, 다중 에이전트 벤치마크를 능가합니다.
  • 라우터 전용 변형은 이미 다른 라우터를 상회하며, 동적 애그리게이터 선택을 추가하면 애그리게이션으로부터 +1.41%, 적응형 애그리게이션으로부터 +1.06%의 추가 이익이 발생합니다.
  • JiSi는 애그리게이션을 통해 이론적 “Best LLM” 경계를 초과할 수 있습니다(+1.6%), 집단 지능의 강력한 가능성을 보여줍니다.
  • 비용 표는 JiSi가 벤치마크 전반에서 상당히 낮은 비용으로 경쟁력 있는 또는 우수한 성능을 달성함을 보여줍니다(예: JiSi vs. Grok-4, GPT-5, Gemini-3-Pro).
  • JiSi는 새로운 오픈 소스 LLM이 추가될 때도 안정적인 성능 향상을 보이며 에코시스템의 진화에 따른 확장성을 시사합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.