QUICK REVIEW

[논문 리뷰] Step 3.5 Flash: Open Frontier-Level Intelligence with 11B Active Parameters

Ailin Huang, Ang Li|arXiv (Cornell University)|2026. 02. 11.

Multimodal Machine Learning Applications인용 수 0

한 줄 요약

Step 3.5 Flash는 프런티어 수준의 추론 및 에이전시 능력을 저지연으로 달성하는 11B 활성 매개변수를 가진 196B MoE 모델로, 하이브리드 어텐션, MTP, MIS-PO RL을 사용합니다.

ABSTRACT

We introduce Step 3.5 Flash, a sparse Mixture-of-Experts (MoE) model that bridges frontier-level agentic intelligence and computational efficiency. We focus on what matters most when building agents: sharp reasoning and fast, reliable execution. Step 3.5 Flash pairs a 196B-parameter foundation with 11B active parameters for efficient inference. It is optimized with interleaved 3:1 sliding-window/full attention and Multi-Token Prediction (MTP-3) to reduce the latency and cost of multi-round agentic interactions. To reach frontier-level intelligence, we design a scalable reinforcement learning framework that combines verifiable signals with preference feedback, while remaining stable under large-scale off-policy training, enabling consistent self-improvement across mathematics, code, and tool use. Step 3.5 Flash demonstrates strong performance across agent, coding, and math tasks, achieving 85.4% on IMO-AnswerBench, 86.4% on LiveCodeBench-v6 (2024.08-2025.05), 88.2% on tau2-Bench, 69.0% on BrowseComp (with context management), and 51.0% on Terminal-Bench 2.0, comparable to frontier models such as GPT-5.2 xHigh and Gemini 3.0 Pro. By redefining the efficiency frontier, Step 3.5 Flash provides a high-density foundation for deploying sophisticated agents in real-world industrial environments.

연구 동기 및 목표

오픈 소스 모델에서 프런티어 수준의 에이전시 지능과 계산 효율성을 연결합니다.
다중 라운드 에이전트 상호작용에서 강한 추론과 빠르고 신뢰할 수 있는 실행을 달성합니다.
장기 지평 학습 동안 안정성을 유지하는 확장 가능한 사후 훈련 RL 프레임워크를 개발합니다.
11B 활성 매개변수로 수학, 코딩 및 도구 벤치마크에서 경쟁력 있는 성능을 보여줍니다.

제안 방법

토큰당 11B 활성 매개변수를 갖는 총 196B 매개변수 희소 MoE 백본을 사용합니다.
장기 컨텍스트 효율성을 높이기 위해 헤드별 게이트 어텐션이 있는 3:1 Sliding Window/Full Attention 하이브리드 레이아웃(S3F1)을 채택합니다.
추정 디코딩을 가능하게 하고 자기회귀 지연을 줄이기 위해 Multi-Token Prediction(MTP-3) 헤드를 도입합니다.
부하 불균형 및 전문가 붕괴를 완화하기 위해 MoE 라우팅과 EP-그룹 밸런싱을 균형 있게 조정합니다.
장기 지향 에이전틱 작업에서 확장 가능하고 안정적인 RL을 위해 MIS-PO(Metropolis Independence Sampling-Filtered Policy Optimization) 채택합니다.
단일 일반화를 유지하기 위해 도메인 특화 전문화와 글로벌 합성을 번갈아 가며 사후 훈련 레시피를 제공합니다.

실험 결과

연구 질문

RQ111B 활성 매개변수 구성이 프런티어 모델의 추론 및 에이전시 작업에 어떻게 비길 수 있나요?
RQ2지연 시간과 성능 간의 최적의 트레이드오프를 제공하는 어텐션 레이아웃, 게이팅, MTP 등 어떤 아키텍처 선택이 긴 컨텍스트의 에이전틱 워크로드에서 유리한가요?
RQ3 unified한 사후 훈련 RL 프레임워크(MIS-PO)가 긴 지평의 에이전틱 추론으로 확장 가능하고 안정성을 유지할 수 있나요?
RQ4대규모 희소 MoE 훈련의 안정성 문제와 완화 방법은 무엇이며 어떻게 모니터링할 수 있나요?
RQ5Step 3.5 Flash가 수학, 코딩, 도구 사용 벤치마크에서 선도 프런티어 시스템과 비교해 어떤 성능을 보이나요?

주요 결과

레이아웃	SWA 헤드	상대 FLOPs	사전 학습 평균	디코드/프리필	추론	수학	코드	과학	일반	롱 컨텍스트
FFFF	32	~2.68 / 2.90	54.1	40.8	40.9	19.6	42.7	26.5	28.8	33.2
S1F1	32	~1.58 / 1.65	54.6	42.1	42.3	19.3	44.5	26.8	29.6	34.1
S3F1	32	~1.00 / 1.00	53.6	40.2	40.4	18.9	42.4	25.4	27.5	32.5
S3F1+Head	48	~1.01 / 1.02	55.7	40.6	40.3	18.3	44.0	26.0	28.2	32.9

Step 3.5 Flash는 11B 활성 매개변수로 추론 및 도구 보강 벤치마크에서 경쟁력 있는 성능을 달성합니다.
IMO-AnswerBench에서 85.4%, LiveCodeBench-v6에서 86.4%를 기록합니다.
tau2-Bench에서 88.2%, BrowseComp에서 69.0%(맥락 관리 포함), Terminal-Bench 2.0에서 51.0%를 달성합니다.
여러 작업에서 GPT-5.2 xHigh 및 Gemini 3.0 Pro에 비견되는 프런티어 수준의 성능에 도달합니다.
SWA와 헤드 게이팅이 있는 MTP가 지연 시간은 감소시키면서 품질을 유지하거나 향상시킵니다.
MIS-PO는 긴 지평 추론에 대해 확장 가능하고 그래디언트 분산을 줄이며 안정성을 개선합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.