QUICK REVIEW

[논문 리뷰] Beyond Gemini-3-Pro: Revisiting LLM Routing and Aggregation at Scale

Shengji Tang, Weihao Lin|arXiv (Cornell University)|2026. 01. 04.

Topic Modeling인용 수 0

한 줄 요약

JiSi는 학습 없이도 작동하는 오픈 소스 LLM 협업 프레임워크로, 쿼리-응답 라우팅, 지원 집합 기반 애그리게이터 선택, 적응형 라우팅-애그리게이션 스위칭을 결합하여 9개 벤치마크에서 10개의 오픈 소스 LLM을 조정해 Gemini-3-Pro 대비 비용을 47% 절감하며 능력을 초과합니다.

ABSTRACT

Large Language Models (LLMs) have rapidly advanced, with Gemini-3-Pro setting a new performance milestone. In this work, we explore collective intelligence as an alternative to monolithic scaling, and demonstrate that open-source LLMs' collaboration can surpass Gemini-3-Pro. We first revisit LLM routing and aggregation at scale and identify three key bottlenecks: (1) current train-free routers are limited by a query-based paradigm focusing solely on textual similarity; (2) recent aggregation methods remain largely static, failing to select appropriate aggregators for different tasks;(3) the complementarity of routing and aggregation remains underutilized. To address these problems, we introduce JiSi, a novel framework designed to release the full potential of LLMs' collaboration through three innovations: (1) Query-Response Mixed Routing capturing both semantic information and problem difficulty; (2) Support-Set-based Aggregator Selection jointly evaluating the aggregation and domain capacity of aggregators; (3) Adaptive Routing-Aggregation Switch dynamically leveraging the advantages of routing and aggregation. Comprehensive experiments on nine benchmarks demonstrate that JiSi can surpass Gemini-3-Pro with only 47% costs by orchestrating ten open-source LLMs, while outperforming mainstream baselines. It suggests that collective intelligence represents a novel path towards Artificial General Intelligence (AGI).

연구 동기 및 목표

AGI 유사 능력에 대한 단일화된 확장 대신 집단 지능 탐색의 타당성 모색.
다수의 오픈 소스 LLM으로 확장할 때 최첨단 라우팅 및 집계 방법의 병목 현상 식별.
깊은 시맨틱스, 작업 난이도, 도메인 지식을 활용하기 위한 최소한의 JiSi 프레임워크 제안.
JiSi로 10개의 오픈 소스 LLM을 조합하면 폐쇄형 모델 및 벤치마인드보다 성능이 우수하고 비용도 감소함을 입증.

제안 방법

깊은 시맨틱스와 작업 난이도를 반영하기 위해 LLM이 생성한 응답 및 토큰 비용으로 파악하는 쿼리-응답 혼합 라우팅의 세 가지 핵심 혁신 도입.
대규모 임베딩 지원 세트를 사용하여 도메인 특화 및 일반적 역량을 가진 애그리게이터를 동적으로 선택하는 지원 집합 기반 애그리게이터 선택 제안.
정제된 사전 점수 및 응답 품질을 바탕으로 라우팅과 애그리 게이션 사이를 전환하는 적응형 라우팅-애그리게이션 스위치 도입으로 노이즈 억제.

실험 결과

연구 질문

RQ1JiSi로 조정된 오픈 소스 LLM이 Gemini-3-Pro와 같은 선도적 폐쇄형 LLM을 다양한 벤치마크에서 능가할 수 있는가?
RQ2라우팅, 애그리게이션 및 이들의 조합이 고정된 일회성 전략이 아닌 적응적이고 작업 인식적 메커니즘으로부터 이익을 얻는가?
RQ3쿼리-응답 신호를 활용한 임베딩 뱅크 기반의 학습 없는 접근 방식이 많은 오픈 소스 모델들로 확장하면서 비용을 줄일 수 있는가?
RQ4제안된 구성요소가 정확도, 효율성, 확장성에 미치는 영향은 어떠한가?
RQ5 JiSi의 비용 효율성은 독점 LLM과 비교하여 어떤 시사점을 가지는가?

주요 결과

모델	AIME	Arena-Hard	GPQA	HLE	LiveCodeBench	LiveMathBench	MMLU-Pro	SimpleQA	SWE-bench	평균
DeepSeek-R1-0528	72.22	64.89	78.33	16.67	76.03	72.97	84.67	28.66	25.33	57.75
DeepSeek-V3-0324	38.89	59.56	68.33	3.70	61.51	59.46	78.44	26.43	24.00	46.70
DeepSeek-V3.1-Terminus	55.56	64.67	78.33	8.64	64.67	67.57	84.56	25.12	26.00	52.79
GLM-4.6	88.89	69.56	80.00	14.20	58.99	64.86	80.89	25.89	22.67	56.22
Intern-S1	38.89	68.00	70.00	9.72	46.69	59.46	83.00	14.33	8.00	44.23
Kimi-K2-0905	72.22	72.22	71.67	5.09	62.15	75.68	80.78	30.66	24.00	54.94
DeepSeek-V3.2-Thinking	88.89	62.44	88.33	24.69	83.91	78.38	87.33	27.81	24.67	62.94
DeepSeek-V3.2-Speciale	94.44	55.33	83.33	27.16	86.75	75.68	87.44	39.52	40.67	65.59
Qwen3-235B-A22B-2507	77.78	75.33	55.00	9.41	58.36	72.97	83.78	54.01	16.67	55.92
Qwen3-235B-A22B-Thinking-2507	72.22	77.78	80.00	7.56	75.71	48.65	80.56	49.31	20.00	56.87
Claude-Sonnet-4	41.11	55.47	71.33	4.60	56.85	62.16	83.58	15.58	35.33	47.33
Claude-Sonnet-4.5	27.78	64.00	71.67	7.56	60.57	59.46	86.33	16.18	34.00	47.51
Grok-4	88.89	56.89	88.33	24.42	81.03	75.68	86.56	48.38	27.33	64.17
GPT-5	83.33	67.11	88.33	25.77	84.54	78.38	87.22	48.00	16.00	64.30
GPT-5.2-Thinking	83.33	85.78	93.33	29.94	90.50	78.38	86.67	35.21	12.67	66.20
Gemini-3-Pro	94.44	74.55	91.67	33.02	89.59	78.38	89.33	70.03	18.00	71.00
JiSi w/o Adaptive Aggregation	94.44	86.44	85.00	30.09	89.27	78.38	87.44	51.46	37.33	71.09
JiSi (Our JiSi)	94.44	88.44	86.67	27.62	89.27	81.08	86.78	53.70	41.33	72.15

JiSi는 9개 벤치마크에서 Gemini-3-Pro를 평균 성능으로 능가하면서 비용을 53.23% 절감합니다.
JiSi는 보고된 결과에서 모든 오픈 소스 LLM, 라우터 벤치마크, 다중 에이전트 벤치마크를 능가합니다.
라우터 전용 변형은 이미 다른 라우터를 상회하며, 동적 애그리게이터 선택을 추가하면 애그리게이션으로부터 +1.41%, 적응형 애그리게이션으로부터 +1.06%의 추가 이익이 발생합니다.
JiSi는 애그리게이션을 통해 이론적 “Best LLM” 경계를 초과할 수 있습니다(+1.6%), 집단 지능의 강력한 가능성을 보여줍니다.
비용 표는 JiSi가 벤치마크 전반에서 상당히 낮은 비용으로 경쟁력 있는 또는 우수한 성능을 달성함을 보여줍니다(예: JiSi vs. Grok-4, GPT-5, Gemini-3-Pro).
JiSi는 새로운 오픈 소스 LLM이 추가될 때도 안정적인 성능 향상을 보이며 에코시스템의 진화에 따른 확장성을 시사합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.