[論文レビュー] Beyond Gemini-3-Pro: Revisiting LLM Routing and Aggregation at Scale
JiSi はトレーニング不要のオープンソース LLM 協調フレームワークであり、クエリ-応答ルーティング、サポートセットベースのアグリゲータ選択、適応的ルーティング-集約切替を組み合わせて、十個のオープンソース LLM を九つのベンチマークで運用することにより Gemini-3-Pro をコスト47%で超える。
Large Language Models (LLMs) have rapidly advanced, with Gemini-3-Pro setting a new performance milestone. In this work, we explore collective intelligence as an alternative to monolithic scaling, and demonstrate that open-source LLMs' collaboration can surpass Gemini-3-Pro. We first revisit LLM routing and aggregation at scale and identify three key bottlenecks: (1) current train-free routers are limited by a query-based paradigm focusing solely on textual similarity; (2) recent aggregation methods remain largely static, failing to select appropriate aggregators for different tasks;(3) the complementarity of routing and aggregation remains underutilized. To address these problems, we introduce JiSi, a novel framework designed to release the full potential of LLMs' collaboration through three innovations: (1) Query-Response Mixed Routing capturing both semantic information and problem difficulty; (2) Support-Set-based Aggregator Selection jointly evaluating the aggregation and domain capacity of aggregators; (3) Adaptive Routing-Aggregation Switch dynamically leveraging the advantages of routing and aggregation. Comprehensive experiments on nine benchmarks demonstrate that JiSi can surpass Gemini-3-Pro with only 47% costs by orchestrating ten open-source LLMs, while outperforming mainstream baselines. It suggests that collective intelligence represents a novel path towards Artificial General Intelligence (AGI).
研究の動機と目的
- AGI らしい能力のモノリシックなスケーリングに代わる集合知の探求を動機づける。
- 多数のオープンソース LLM へスケールする際の最先端のルーティングと集約手法のボトルネックを識別する。
- 深い意味論、タスク難易度、およびドメイン知識を活用するミニマリストな JiSi フレームワークを提案し、より良いルーティングと集約を実現する。
- JiSi による十個のオープンソース LLM の協調運用が、クローズドソースモデルやベースラインを上回りつつコストを削減することを示す。
提案手法
- 深い意味論とタスク難易度を LLM が生成する応答とトークンコストで捉える三つの中核的革新を導入する:Query-Response Mixed Routing。
- より大きな埋め込みサポートセットを用いて、ドメイン特化および一般的能力を備えたアグリゲータを動的に選択する Support-Set-based Aggregator Selection。
- 精練された事前スコアと応答品質に基づいてルーティングと集約の間を切替える Adaptive Routing-Aggregation Switch を追加し、ノイズを抑制する。
実験結果
リサーチクエスチョン
- RQ1JiSi によって連携されたオープンソース LLM は、Gemini-3-Pro のような先端のクローズドソース LLM を多様なベンチマークで上回るか。
- RQ2ルーティング、集約、およびそれらの組み合わせは、静的なワンショット戦略よりも適応的でタスク認識的な仕組みの恩恵を受けるか。
- RQ3クエリ応答信号を用いた埋め込みバンクベースのトレーニング不要アプローチは、多数のオープンソースモデルへ拡張してコストを削減するのに十分か。
- RQ4提案された構成要素は、広範なタスク群において精度、効率、スケーラビリティにどのような影響を及ぼすか。
- RQ5JiSi のコスト効率は独自の LLM に対してどのような意味を持つか。
主な発見
| Model | AIME | Arena-Hard | GPQA | HLE | LiveCodeBench | LiveMathBench | MMLU-Pro | SimpleQA | SWE-bench | Avg |
|---|---|---|---|---|---|---|---|---|---|---|
| DeepSeek-R1-0528 | 72.22 | 64.89 | 78.33 | 16.67 | 76.03 | 72.97 | 84.67 | 28.66 | 25.33 | 57.75 |
| DeepSeek-V3-0324 | 38.89 | 59.56 | 68.33 | 3.70 | 61.51 | 59.46 | 78.44 | 26.43 | 24.00 | 46.70 |
| DeepSeek-V3.1-Terminus | 55.56 | 64.67 | 78.33 | 8.64 | 64.67 | 67.57 | 84.56 | 25.12 | 26.00 | 52.79 |
| GLM-4.6 | 88.89 | 69.56 | 80.00 | 14.20 | 58.99 | 64.86 | 80.89 | 25.89 | 22.67 | 56.22 |
| Intern-S1 | 38.89 | 68.00 | 70.00 | 9.72 | 46.69 | 59.46 | 83.00 | 14.33 | 8.00 | 44.23 |
| Kimi-K2-0905 | 72.22 | 72.22 | 71.67 | 5.09 | 62.15 | 75.68 | 80.78 | 30.66 | 24.00 | 54.94 |
| DeepSeek-V3.2-Thinking | 88.89 | 62.44 | 88.33 | 24.69 | 83.91 | 78.38 | 87.33 | 27.81 | 24.67 | 62.94 |
| DeepSeek-V3.2-Speciale | 94.44 | 55.33 | 83.33 | 27.16 | 86.75 | 75.68 | 87.44 | 39.52 | 40.67 | 65.59 |
| Qwen3-235B-A22B-2507 | 77.78 | 75.33 | 55.00 | 9.41 | 58.36 | 72.97 | 83.78 | 54.01 | 16.67 | 55.92 |
| Qwen3-235B-A22B-Thinking-2507 | 72.22 | 77.78 | 80.00 | 7.56 | 75.71 | 48.65 | 80.56 | 49.31 | 20.00 | 56.87 |
| Claude-Sonnet-4 | 41.11 | 55.47 | 71.33 | 4.60 | 56.85 | 62.16 | 83.58 | 15.58 | 35.33 | 47.33 |
| Claude-Sonnet-4.5 | 27.78 | 64.00 | 71.67 | 7.56 | 60.57 | 59.46 | 86.33 | 16.18 | 34.00 | 47.51 |
| Grok-4 | 88.89 | 56.89 | 88.33 | 24.42 | 81.03 | 75.68 | 86.56 | 48.38 | 27.33 | 64.17 |
| GPT-5 | 83.33 | 67.11 | 88.33 | 25.77 | 84.54 | 78.38 | 87.22 | 48.00 | 16.00 | 64.30 |
| GPT-5.2-Thinking | 83.33 | 85.78 | 93.33 | 29.94 | 90.50 | 78.38 | 86.67 | 35.21 | 12.67 | 66.20 |
| Gemini-3-Pro | 94.44 | 74.55 | 91.67 | 33.02 | 89.59 | 78.38 | 89.33 | 70.03 | 18.00 | 71.00 |
| JiSi w/o Adaptive Aggregation | 94.44 | 86.44 | 85.00 | 30.09 | 89.27 | 78.38 | 87.44 | 51.46 | 37.33 | 71.09 |
| JiSi (Our JiSi) | 94.44 | 88.44 | 86.67 | 27.62 | 89.27 | 81.08 | 86.78 | 53.70 | 41.33 | 72.15 |
- JiSi は九つのベンチマーク全体で Gemini-3-Pro を平均パフォーマンスで上回り、コストを 53.23% 節約。
- JiSi は報告された結果において、全てのオープンソース LLM、ルーターバリエーション、マルチエージェントベースラインを上回る。
- ルータ単独のバリアントはすでに他のルータを凌駕しており、動的アグリゲータ選択を追加するとさらに利益が得られる(aggregation から +1.41%、adaptive aggregation から +1.06%)。
- JiSi は aggregation によって理論的な「Best LLM」境界を超えることができ(+1.6%)、集合知の強力な潜在を示す。
- コスト表は JiSi がベンチマーク全体で substantially lower cost で競争力のある、または優れた性能を達成することを示す(例:JiSi vs. Grok-4、GPT-5、Gemini-3-Pro)。
- JiSi は新しいオープンソース LLM が追加されても安定した性能向上を示し、進化するエコシステムでの良好なスケーラビリティを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。