Skip to main content
QUICK REVIEW

[論文レビュー] Learning Abstractions for Hierarchical Planning in Program-Synthesis Agents

Ahmed, Zergham, Kazuki Irie|arXiv (Cornell University)|Jan 31, 2026
AI-based Problem Solving and Planning被引用数 0
ひとこと要約

TheoryCoder-2 は文脈内学習を介して再利用可能な抽象概念を自動的に学習し、階層的計画を可能にする。これによりサンプル効率と一般化性能が改善され、さまざまな環境で適用可能性が高まる。

ABSTRACT

Humans learn abstractions and use them to plan efficiently to quickly generalize across tasks -- an ability that remains challenging for state-of-the-art large language model (LLM) agents and deep reinforcement learning (RL) systems. Inspired by the cognitive science of how people form abstractions and intuitive theories of their world knowledge, Theory-Based RL (TBRL) systems, such as TheoryCoder, exhibit strong generalization through effective use of abstractions. However, they heavily rely on human-provided abstractions and sidestep the abstraction-learning problem. We introduce TheoryCoder-2, a new TBRL agent that leverages LLMs' in-context learning ability to actively learn reusable abstractions rather than relying on hand-specified ones, by synthesizing abstractions from experience and integrating them into a hierarchical planning process. We conduct experiments on diverse environments, including BabyAI, Minihack and VGDL games like Sokoban. We find that TheoryCoder-2 is significantly more sample-efficient than baseline LLM agents augmented with classical planning domain construction, reasoning-based planning, and prior program-synthesis agents such as WorldCoder. TheoryCoder-2 is able to solve complex tasks that the baselines fail, while only requiring minimal human prompts, unlike prior TBRL systems.

研究の動機と目的

  • 人間のような抽象学習が計画効率と一般化を向上させる必要性を動機づける。
  • TheoryCoder-2 を開発し、自己完結的に高レベル抽象概念(PDDL 演算子)を合成し、低レベル世界モデルで基盤付けする。
  • カリキュラム主導の学習を通じて複数の環境で学習した抽象概念の再利用を可能にする。
  • LLM 支援計画や WorldCoder を含むベースラインに対して、サンプル効率とタスク成功率の改善を示す。

提案手法

  • TheoryCoder を拡張して、LLM の文脈内学習を用いて高レベル抽象概念を自動合成する。
  • 抽象概念を階層的計画機(Fast Downward)用の PDDL ドメインと問題ファイルとして表現し、Python ベースの world model で grounding する。
  • 高レベル計画機が抽象演算子を選択し、低レベル計画機が学習済み遷移関数を用いて grounded なアクション列を実行する bi-level planning ループを使用する。
  • 環境データから学習した Python の述語分類器で述語意味を grounding する。
  • 予測誤差と計画結果を用いて LLM にプロンプトを与え、world model と抽象を反復的に改良する。
  • エピソード的カリキュラムを通じて類似環境をグループ化し、学習した演算子と述語の再利用を促進する抽象ライブラリを成長させる。
Figure 1 : Comparison of agent–environment interaction between methods. WorldCoder and LLM + P both fall under the LLM + Planner category.
Figure 1 : Comparison of agent–environment interaction between methods. WorldCoder and LLM + P both fall under the LLM + Planner category.

実験結果

リサーチクエスチョン

  • RQ1TheoryCoder-2 は抽象状態と行動を自律的に学習し、異なる環境間で移転できるか。
  • RQ2学習した抽象概念の再利用が新しいタスクのサンプル効率を改善するか。
  • RQ3VGDL、BabyAI、Minihack の多様なドメインで、トークンコスト、計算時間、解決率の観点で TheoryCoder-2 はベースラインとどう比較されるか。

主な発見

Task (Game)FullTC - PTC - CLLM + πLLM + PWorldCoder
Labyrinth21378245102137851732893156360
Maze19737231862123635182439656085
Sokoban717110373844126082591919684
BabyAI Pickup85886660858824052058918013
BabyAI Unlock33116417343311657055007197938
BabyAI Combined Skills 1196154277447254096041515119330
BabyAI Combined Skills 210252853376451754997355078120375
BabyAI Combined Skills 3245453064450172979155078120375
Minihack-5x55163767151631115125958144
Minihack-15x150981548371402121240
Minihack-Traps01432650079110297120
Minihack-Monster02118961251290309400
Minihack-WoD19433219321943343765243462165
  • TheoryCoder-2 は move_to などのコア抽象を学習し、Labyrinth、Maze、Sokoban で再利用する。
  • TheoryCoder-2 によって学習された抽象はより難しいタスク(例: BabyAI Boss)に転移し、ベースラインが苦戦する問題を解決可能にする。
  • TheoryCoder-2 は LLM ベースのベースラインおよび WorldCoder と比べて、サンプル効率が高く、解決率が競合的または優れており、トークンコストを抑えつつ計画を高速化する。
  • TheoryCoder-2 によって学習された抽象は、性能面で手作業で設計された Oracle 抽象の品質に近づく。
  • カリキュラムベースの学習と grounded な、コードベースの抽象が、 prompting-based 抽象よりも高速な合成と計画に寄与する。
  • Minihack ではゼロショット転移が見られ、学習した move_to 抽象が後続タスクの迅速な解決を可能にする。
Figure 2 : An illustration of the curriculum used in our experiments. A curriculum is a sequence of episodes in which each episode contains one or more environments/games. The sequence of the first episode (Labyrinth) and the second one (Maze, and Sokoban) is studied in Experiment 1 (Sec. 4.1 ), whi
Figure 2 : An illustration of the curriculum used in our experiments. A curriculum is a sequence of episodes in which each episode contains one or more environments/games. The sequence of the first episode (Labyrinth) and the second one (Maze, and Sokoban) is studied in Experiment 1 (Sec. 4.1 ), whi

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。