[논문 리뷰] Beyond Gemini-3-Pro: Revisiting LLM Routing and Aggregation at Scale
JiSi는 학습 없이도 작동하는 오픈 소스 LLM 협업 프레임워크로, 쿼리-응답 라우팅, 지원 집합 기반 애그리게이터 선택, 적응형 라우팅-애그리게이션 스위칭을 결합하여 9개 벤치마크에서 10개의 오픈 소스 LLM을 조정해 Gemini-3-Pro 대비 비용을 47% 절감하며 능력을 초과합니다.
Large Language Models (LLMs) have rapidly advanced, with Gemini-3-Pro setting a new performance milestone. In this work, we explore collective intelligence as an alternative to monolithic scaling, and demonstrate that open-source LLMs' collaboration can surpass Gemini-3-Pro. We first revisit LLM routing and aggregation at scale and identify three key bottlenecks: (1) current train-free routers are limited by a query-based paradigm focusing solely on textual similarity; (2) recent aggregation methods remain largely static, failing to select appropriate aggregators for different tasks;(3) the complementarity of routing and aggregation remains underutilized. To address these problems, we introduce JiSi, a novel framework designed to release the full potential of LLMs' collaboration through three innovations: (1) Query-Response Mixed Routing capturing both semantic information and problem difficulty; (2) Support-Set-based Aggregator Selection jointly evaluating the aggregation and domain capacity of aggregators; (3) Adaptive Routing-Aggregation Switch dynamically leveraging the advantages of routing and aggregation. Comprehensive experiments on nine benchmarks demonstrate that JiSi can surpass Gemini-3-Pro with only 47% costs by orchestrating ten open-source LLMs, while outperforming mainstream baselines. It suggests that collective intelligence represents a novel path towards Artificial General Intelligence (AGI).
연구 동기 및 목표
- AGI 유사 능력에 대한 단일화된 확장 대신 집단 지능 탐색의 타당성 모색.
- 다수의 오픈 소스 LLM으로 확장할 때 최첨단 라우팅 및 집계 방법의 병목 현상 식별.
- 깊은 시맨틱스, 작업 난이도, 도메인 지식을 활용하기 위한 최소한의 JiSi 프레임워크 제안.
- JiSi로 10개의 오픈 소스 LLM을 조합하면 폐쇄형 모델 및 벤치마인드보다 성능이 우수하고 비용도 감소함을 입증.
제안 방법
- 깊은 시맨틱스와 작업 난이도를 반영하기 위해 LLM이 생성한 응답 및 토큰 비용으로 파악하는 쿼리-응답 혼합 라우팅의 세 가지 핵심 혁신 도입.
- 대규모 임베딩 지원 세트를 사용하여 도메인 특화 및 일반적 역량을 가진 애그리게이터를 동적으로 선택하는 지원 집합 기반 애그리게이터 선택 제안.
- 정제된 사전 점수 및 응답 품질을 바탕으로 라우팅과 애그리 게이션 사이를 전환하는 적응형 라우팅-애그리게이션 스위치 도입으로 노이즈 억제.
실험 결과
연구 질문
- RQ1JiSi로 조정된 오픈 소스 LLM이 Gemini-3-Pro와 같은 선도적 폐쇄형 LLM을 다양한 벤치마크에서 능가할 수 있는가?
- RQ2라우팅, 애그리게이션 및 이들의 조합이 고정된 일회성 전략이 아닌 적응적이고 작업 인식적 메커니즘으로부터 이익을 얻는가?
- RQ3쿼리-응답 신호를 활용한 임베딩 뱅크 기반의 학습 없는 접근 방식이 많은 오픈 소스 모델들로 확장하면서 비용을 줄일 수 있는가?
- RQ4제안된 구성요소가 정확도, 효율성, 확장성에 미치는 영향은 어떠한가?
- RQ5 JiSi의 비용 효율성은 독점 LLM과 비교하여 어떤 시사점을 가지는가?
주요 결과
| 모델 | AIME | Arena-Hard | GPQA | HLE | LiveCodeBench | LiveMathBench | MMLU-Pro | SimpleQA | SWE-bench | 평균 |
|---|---|---|---|---|---|---|---|---|---|---|
| DeepSeek-R1-0528 | 72.22 | 64.89 | 78.33 | 16.67 | 76.03 | 72.97 | 84.67 | 28.66 | 25.33 | 57.75 |
| DeepSeek-V3-0324 | 38.89 | 59.56 | 68.33 | 3.70 | 61.51 | 59.46 | 78.44 | 26.43 | 24.00 | 46.70 |
| DeepSeek-V3.1-Terminus | 55.56 | 64.67 | 78.33 | 8.64 | 64.67 | 67.57 | 84.56 | 25.12 | 26.00 | 52.79 |
| GLM-4.6 | 88.89 | 69.56 | 80.00 | 14.20 | 58.99 | 64.86 | 80.89 | 25.89 | 22.67 | 56.22 |
| Intern-S1 | 38.89 | 68.00 | 70.00 | 9.72 | 46.69 | 59.46 | 83.00 | 14.33 | 8.00 | 44.23 |
| Kimi-K2-0905 | 72.22 | 72.22 | 71.67 | 5.09 | 62.15 | 75.68 | 80.78 | 30.66 | 24.00 | 54.94 |
| DeepSeek-V3.2-Thinking | 88.89 | 62.44 | 88.33 | 24.69 | 83.91 | 78.38 | 87.33 | 27.81 | 24.67 | 62.94 |
| DeepSeek-V3.2-Speciale | 94.44 | 55.33 | 83.33 | 27.16 | 86.75 | 75.68 | 87.44 | 39.52 | 40.67 | 65.59 |
| Qwen3-235B-A22B-2507 | 77.78 | 75.33 | 55.00 | 9.41 | 58.36 | 72.97 | 83.78 | 54.01 | 16.67 | 55.92 |
| Qwen3-235B-A22B-Thinking-2507 | 72.22 | 77.78 | 80.00 | 7.56 | 75.71 | 48.65 | 80.56 | 49.31 | 20.00 | 56.87 |
| Claude-Sonnet-4 | 41.11 | 55.47 | 71.33 | 4.60 | 56.85 | 62.16 | 83.58 | 15.58 | 35.33 | 47.33 |
| Claude-Sonnet-4.5 | 27.78 | 64.00 | 71.67 | 7.56 | 60.57 | 59.46 | 86.33 | 16.18 | 34.00 | 47.51 |
| Grok-4 | 88.89 | 56.89 | 88.33 | 24.42 | 81.03 | 75.68 | 86.56 | 48.38 | 27.33 | 64.17 |
| GPT-5 | 83.33 | 67.11 | 88.33 | 25.77 | 84.54 | 78.38 | 87.22 | 48.00 | 16.00 | 64.30 |
| GPT-5.2-Thinking | 83.33 | 85.78 | 93.33 | 29.94 | 90.50 | 78.38 | 86.67 | 35.21 | 12.67 | 66.20 |
| Gemini-3-Pro | 94.44 | 74.55 | 91.67 | 33.02 | 89.59 | 78.38 | 89.33 | 70.03 | 18.00 | 71.00 |
| JiSi w/o Adaptive Aggregation | 94.44 | 86.44 | 85.00 | 30.09 | 89.27 | 78.38 | 87.44 | 51.46 | 37.33 | 71.09 |
| JiSi (Our JiSi) | 94.44 | 88.44 | 86.67 | 27.62 | 89.27 | 81.08 | 86.78 | 53.70 | 41.33 | 72.15 |
- JiSi는 9개 벤치마크에서 Gemini-3-Pro를 평균 성능으로 능가하면서 비용을 53.23% 절감합니다.
- JiSi는 보고된 결과에서 모든 오픈 소스 LLM, 라우터 벤치마크, 다중 에이전트 벤치마크를 능가합니다.
- 라우터 전용 변형은 이미 다른 라우터를 상회하며, 동적 애그리게이터 선택을 추가하면 애그리게이션으로부터 +1.41%, 적응형 애그리게이션으로부터 +1.06%의 추가 이익이 발생합니다.
- JiSi는 애그리게이션을 통해 이론적 “Best LLM” 경계를 초과할 수 있습니다(+1.6%), 집단 지능의 강력한 가능성을 보여줍니다.
- 비용 표는 JiSi가 벤치마크 전반에서 상당히 낮은 비용으로 경쟁력 있는 또는 우수한 성능을 달성함을 보여줍니다(예: JiSi vs. Grok-4, GPT-5, Gemini-3-Pro).
- JiSi는 새로운 오픈 소스 LLM이 추가될 때도 안정적인 성능 향상을 보이며 에코시스템의 진화에 따른 확장성을 시사합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.