Skip to main content
QUICK REVIEW

[論文レビュー] The PokeAgent Challenge: Competitive and Long-Context Learning at Scale

Seth Karten, Jake Grigsby|arXiv (Cornell University)|Mar 16, 2026
Artificial Intelligence in Games被引用数 0
ひとこと要約

ポケAgentチャレンジは、意思決定を部分観測下・長期展望計画でスケールさせて評価するための、相補的な2トラックを提供する。大規模データセット・ベースライン・NeurIPS 2025の競技会を通じて、LLM・RL・人間のギャップを露呈。

ABSTRACT

We present the PokeAgent Challenge, a large-scale benchmark for decision-making research built on Pokemon's multi-agent battle system and expansive role-playing game (RPG) environment. Partial observability, game-theoretic reasoning, and long-horizon planning remain open problems for frontier AI, yet few benchmarks stress all three simultaneously under realistic conditions. PokeAgent targets these limitations at scale through two complementary tracks: our Battling Track, which calls for strategic reasoning and generalization under partial observability in competitive Pokemon battles, and our Speedrunning Track, which requires long-horizon planning and sequential decision-making in the Pokemon RPG. Our Battling Track supplies a dataset of 20M+ battle trajectories alongside a suite of heuristic, RL, and LLM-based baselines capable of high-level competitive play. Our Speedrunning Track provides the first standardized evaluation framework for RPG speedrunning, including an open-source multi-agent orchestration system for modular, reproducible comparisons of harness-based LLM approaches. Our NeurIPS 2025 competition validates both the quality of our resources and the research community's interest in Pokemon, with over 100 teams competing across both tracks and winning solutions detailed in our paper. Participant submissions and our baselines reveal considerable gaps between generalist (LLM), specialist (RL), and elite human performance. Analysis against the BenchPress evaluation matrix shows that Pokemon battling is nearly orthogonal to standard LLM benchmarks, measuring capabilities not captured by existing suites and positioning Pokemon as an unsolved benchmark that can drive RL and LLM research forward. We transition to a living benchmark with a live leaderboard for Battling and self-contained evaluation for Speedrunning at https://pokeagentchallenge.com.

研究の動機と目的

  • ダイナミックで部分観測性のあるゲーム環境における意思決定の標準化・スケーラブルなベンチマークを確立する。
  • RL、LLM、ハイブリッド手法間で公正な比較を可能にする大規模で公開可能なデータセットとベースラインを提供する。
  • 競技的バトリングと長期RPGのSpeedrunningを評価し、現代AIパラダイムの強みと弱点を特定する。
  • 進捗を時系列で追跈できる生きたベンチマークを育成し、リーダーボードを長期運用する自立評価を整備する。

提案手法

  • ポケモンショーダウンを用いた対戦と長期展望RPGであるポケモン emeraldのスピードランを組み合わせた2トラック設計。
  • 大規模データセットの公開:400万件の人間デモと1800万件の合成対戦軌跡、さらに20万件以上のキュレーション済み対戦チーム。
  • ヒューリスティックボット、RLエージェント、ハーネス型LLMエージェントを含むベンチマーク、および長期RPGプレイのためのオーケストレーションシステムのオープンソース化。
  • リソースを検証するNeurIPS 2025競技会で、100件超のチームと10万件超の対戦を実施し、汎用LLM、専門RL、熟練ヒューマン間のギャップを明示。
  • ライブバトリングのリーダーボードと自己完結型Speedrunning評価を含む生きたベンチマーク基盤を、公開リポジトリで提供。

実験結果

リサーチクエスチョン

  • RQ1高リスク・対戦的なポケモン対戦における partial observability 下でのRL、LLM、ハイブリッド手法の比較はどうなるか。
  • RQ2長期展望RPGタスクを標準化して、パラダイムを跨ぐ公正で再現性のある評価を実現できるか。
  • RQ3バトリングとスピードランニングの両 track における先端LLMと専門RL方法のギャップはどこにあるか。
  • RQ4LLMsがRLが現実の意思決定を洗練させるための高レベルな計画を提供できる程度はどの程度か。

主な発見

  • 専門的なRLと探索法が、バトリング・スピードランニングの両方で汎用LLMsを上回る。
  • バトリングでは raw frontier model がハーネスなしには非自明な進展を示せず、RL/MCSTアプローチが性能を支配的に占める。
  • トップのSpeedrunning手法(Heatz)は、スクリプト付きポリシーディスティレーションと模倣学習およびRLの洗練を用いてルートを40:13で完了し、2位より約2倍速い。
  • ハーネス型LLMアプローチは競争力のある計画を達成可能だが、ツールと分解作業が大幅に必要;純粋なLLMsは時間と信頼性の面で劣る。
  • ポケモン対戦は標準的なLLMベンチマークとほぼ直交しており、部分観測下での戦略的推論という評価軸が独立して存在することを示している。
  • ベンチマークはLLMsのパニック行動や長い連続決定の一貫性喪失といった失敗モードを露呈し、伝統的なベンチマークでは見られない。
  • 競技会は100以上のチームと650人超の研究者を集め、10万件超の対戦とコミュニティの広範な関与を生んだ。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。