[논문 리뷰] Step 3.5 Flash: Open Frontier-Level Intelligence with 11B Active Parameters
Step 3.5 Flash는 프런티어 수준의 추론 및 에이전시 능력을 저지연으로 달성하는 11B 활성 매개변수를 가진 196B MoE 모델로, 하이브리드 어텐션, MTP, MIS-PO RL을 사용합니다.
We introduce Step 3.5 Flash, a sparse Mixture-of-Experts (MoE) model that bridges frontier-level agentic intelligence and computational efficiency. We focus on what matters most when building agents: sharp reasoning and fast, reliable execution. Step 3.5 Flash pairs a 196B-parameter foundation with 11B active parameters for efficient inference. It is optimized with interleaved 3:1 sliding-window/full attention and Multi-Token Prediction (MTP-3) to reduce the latency and cost of multi-round agentic interactions. To reach frontier-level intelligence, we design a scalable reinforcement learning framework that combines verifiable signals with preference feedback, while remaining stable under large-scale off-policy training, enabling consistent self-improvement across mathematics, code, and tool use. Step 3.5 Flash demonstrates strong performance across agent, coding, and math tasks, achieving 85.4% on IMO-AnswerBench, 86.4% on LiveCodeBench-v6 (2024.08-2025.05), 88.2% on tau2-Bench, 69.0% on BrowseComp (with context management), and 51.0% on Terminal-Bench 2.0, comparable to frontier models such as GPT-5.2 xHigh and Gemini 3.0 Pro. By redefining the efficiency frontier, Step 3.5 Flash provides a high-density foundation for deploying sophisticated agents in real-world industrial environments.
연구 동기 및 목표
- 오픈 소스 모델에서 프런티어 수준의 에이전시 지능과 계산 효율성을 연결합니다.
- 다중 라운드 에이전트 상호작용에서 강한 추론과 빠르고 신뢰할 수 있는 실행을 달성합니다.
- 장기 지평 학습 동안 안정성을 유지하는 확장 가능한 사후 훈련 RL 프레임워크를 개발합니다.
- 11B 활성 매개변수로 수학, 코딩 및 도구 벤치마크에서 경쟁력 있는 성능을 보여줍니다.
제안 방법
- 토큰당 11B 활성 매개변수를 갖는 총 196B 매개변수 희소 MoE 백본을 사용합니다.
- 장기 컨텍스트 효율성을 높이기 위해 헤드별 게이트 어텐션이 있는 3:1 Sliding Window/Full Attention 하이브리드 레이아웃(S3F1)을 채택합니다.
- 추정 디코딩을 가능하게 하고 자기회귀 지연을 줄이기 위해 Multi-Token Prediction(MTP-3) 헤드를 도입합니다.
- 부하 불균형 및 전문가 붕괴를 완화하기 위해 MoE 라우팅과 EP-그룹 밸런싱을 균형 있게 조정합니다.
- 장기 지향 에이전틱 작업에서 확장 가능하고 안정적인 RL을 위해 MIS-PO(Metropolis Independence Sampling-Filtered Policy Optimization) 채택합니다.
- 단일 일반화를 유지하기 위해 도메인 특화 전문화와 글로벌 합성을 번갈아 가며 사후 훈련 레시피를 제공합니다.
실험 결과
연구 질문
- RQ111B 활성 매개변수 구성이 프런티어 모델의 추론 및 에이전시 작업에 어떻게 비길 수 있나요?
- RQ2지연 시간과 성능 간의 최적의 트레이드오프를 제공하는 어텐션 레이아웃, 게이팅, MTP 등 어떤 아키텍처 선택이 긴 컨텍스트의 에이전틱 워크로드에서 유리한가요?
- RQ3 unified한 사후 훈련 RL 프레임워크(MIS-PO)가 긴 지평의 에이전틱 추론으로 확장 가능하고 안정성을 유지할 수 있나요?
- RQ4대규모 희소 MoE 훈련의 안정성 문제와 완화 방법은 무엇이며 어떻게 모니터링할 수 있나요?
- RQ5Step 3.5 Flash가 수학, 코딩, 도구 사용 벤치마크에서 선도 프런티어 시스템과 비교해 어떤 성능을 보이나요?
주요 결과
| 레이아웃 | SWA 헤드 | 상대 FLOPs | 사전 학습 평균 | 디코드/프리필 | 추론 | 수학 | 코드 | 과학 | 일반 | 롱 컨텍스트 | 평균 |
|---|---|---|---|---|---|---|---|---|---|---|---|
| FFFF | 32 | ~2.68 / 2.90 | 54.1 | 40.8 | 40.9 | 19.6 | 42.7 | 26.5 | 28.8 | 33.2 | |
| S1F1 | 32 | ~1.58 / 1.65 | 54.6 | 42.1 | 42.3 | 19.3 | 44.5 | 26.8 | 29.6 | 34.1 | |
| S3F1 | 32 | ~1.00 / 1.00 | 53.6 | 40.2 | 40.4 | 18.9 | 42.4 | 25.4 | 27.5 | 32.5 | |
| S3F1+Head | 48 | ~1.01 / 1.02 | 55.7 | 40.6 | 40.3 | 18.3 | 44.0 | 26.0 | 28.2 | 32.9 |
- Step 3.5 Flash는 11B 활성 매개변수로 추론 및 도구 보강 벤치마크에서 경쟁력 있는 성능을 달성합니다.
- IMO-AnswerBench에서 85.4%, LiveCodeBench-v6에서 86.4%를 기록합니다.
- tau2-Bench에서 88.2%, BrowseComp에서 69.0%(맥락 관리 포함), Terminal-Bench 2.0에서 51.0%를 달성합니다.
- 여러 작업에서 GPT-5.2 xHigh 및 Gemini 3.0 Pro에 비견되는 프런티어 수준의 성능에 도달합니다.
- SWA와 헤드 게이팅이 있는 MTP가 지연 시간은 감소시키면서 품질을 유지하거나 향상시킵니다.
- MIS-PO는 긴 지평 추론에 대해 확장 가능하고 그래디언트 분산을 줄이며 안정성을 개선합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.