[논문 리뷰] The PokeAgent Challenge: Competitive and Long-Context Learning at Scale
PokéAgent 챌린지는 부분 관측성 및 장기 시나리오 계획에 따른 의사결정을 규모로 벤치마크하기 위한 두 가지 보완 트랙—대전(Battling)과 RPG 속도런(RPG Speedrunning)—을 제공하며, 대규모 데이터셋, 베이스라인, 그리고 LLM, RL, 인간 간의 격차를 드러낸 NeurIPS 2025 대회를 포함합니다.
We present the PokeAgent Challenge, a large-scale benchmark for decision-making research built on Pokemon's multi-agent battle system and expansive role-playing game (RPG) environment. Partial observability, game-theoretic reasoning, and long-horizon planning remain open problems for frontier AI, yet few benchmarks stress all three simultaneously under realistic conditions. PokeAgent targets these limitations at scale through two complementary tracks: our Battling Track, which calls for strategic reasoning and generalization under partial observability in competitive Pokemon battles, and our Speedrunning Track, which requires long-horizon planning and sequential decision-making in the Pokemon RPG. Our Battling Track supplies a dataset of 20M+ battle trajectories alongside a suite of heuristic, RL, and LLM-based baselines capable of high-level competitive play. Our Speedrunning Track provides the first standardized evaluation framework for RPG speedrunning, including an open-source multi-agent orchestration system for modular, reproducible comparisons of harness-based LLM approaches. Our NeurIPS 2025 competition validates both the quality of our resources and the research community's interest in Pokemon, with over 100 teams competing across both tracks and winning solutions detailed in our paper. Participant submissions and our baselines reveal considerable gaps between generalist (LLM), specialist (RL), and elite human performance. Analysis against the BenchPress evaluation matrix shows that Pokemon battling is nearly orthogonal to standard LLM benchmarks, measuring capabilities not captured by existing suites and positioning Pokemon as an unsolved benchmark that can drive RL and LLM research forward. We transition to a living benchmark with a live leaderboard for Battling and self-contained evaluation for Speedrunning at https://pokeagentchallenge.com.
연구 동기 및 목표
- 역동적이고 부분 관찰 가능한 게임 환경에서 의사결정을 위한 표준화되고 확장 가능한 벤치마크를 확립한다.
- RL, LLM, 하이브리드 접근 방식 간 공정한 비교를 가능하게 하는 대규모 공개 데이터셋과 베이스라인을 제공한다.
- 배틀링과 장기 호라이즌 RPG 속도런을 평가하여 현재 AI 패러다임의 강점과 약점을 식별한다.
- 진행 상황을 추적하기 위한 지속 가능한 리더보드와 자체 포함 평가를 갖춘 Living 벤치마크를 조성한다.
제안 방법
- 포켓몬 쇼다운 기반 대전 대결과 포켓몬 에메랄드의 장기 호라이즌 RPG 속도런을 연결하는 이중 트랙 디자인.
- 공개 대규모 데이터셋 배포: 400만 명의 인간 시연 및 1800만 건의 합성 전투 데이터와 20만 건이 넘는 큐레이션된 대전 팀.
- 휴리스틱 봇, RL 에이전트, 하니스 기반 LLM 에이전트를 포함하는 벤치마크와 장기 호라이즌 RPG 플레이를 위한 오픈 소스 다중 에이전트 오케스트레이션 시스템.
- 100개 이상의 팀과 10만 건 이상의 전투로 자원을 검증하는 NeurIPS 2025 대회가 일반 목적 LLM, 전문 RL, 우수 인간 간의 격차를 드러냄.
- 라이브 배틀링 리더보드와 자체 포함 속도런 평가를 포함한 Living 벤치마크 인프라로 공공 저장소에 리소스 호스팅.
실험 결과
연구 질문
- RQ1부분 관찰 하에서의 고위험인 대전에서 RL, LLM, 하이브리드 접근 방식은 어떻게 비교되는가?
- RQ2장기 호라이즌 RPG 과제를 표준화하여 공정하고 재현 가능한 교차 패러다임 평가를 가능하게 할 수 있는가?
- RQ3배틀링과 스피드런 트랙 모두에서 최전선 LLM과 전문 RL 방법 간의 격차는 무엇인가?
- RQ4복잡한 환경에서 RL이 실시간 의사결정을 다듬을 수 있도록 LLM이 고수준 계획을 어느 정도 제공할 수 있는가?
주요 결과
- 전문가 수준의 RL 및 탐색 방법이 일반ist LLM보다 배틀링과 스피드런 모두에서 더 나은 성능을 보였다.
- 배틀링에서 원시 프론티어 모델은 하네스 없이 비트의 진전이 실질적으로 없었고, RL/MCST 접근 방식이 성능을 지배했다.
- 최고의 스피드런 방법(Heatz)은 40:13의 루트를 완료했고, 모방 학습과 RL 정제의 스크립트정책 증류를 사용하여 두 번째보다 대략 2배 빠르게 달성했다.
- 하니스 기반 LLM 접근 방식은 경쟁력 있는 기획을 달성할 수 있지만 상당한 도구 및 분해가 필요하며, 순수 LLM은 시간과 신뢰성 면에서 뒤떨어진다.
- 포켓몬 배틀은 표준 LLM 벤치마크와 거의 직교적이며 부분 관찰성 하의 전략적 추론에 대한 독립된 평가 축을 나타낸다.
- 벤치마크는 롤링되는 수천 개의 지속적 결정에서의 공황 행위 및 일관성 손실과 같은 LLM의 실패 모드를 드러내며, 전통적 벤치마크에서는 뚜렷하지 않다.
- 대회에는 100개가 넘는 팀과 650명 이상 연구자, 10만 건이 넘는 전투 및 광범위한 커뮤니티 참여가 모였다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.