[論文レビュー] Agentic Critical Training
ACTは代替案の中でより良い行動を識別するために報酬学習を用いてLLMエージェントを訓練し、模倣学習および強化学習より改善を生み出し、Early Experienceを上回り、強力な分布外一般化と一般的推論ベンチマークへの転移を達成する。
Training large language models (LLMs) as autonomous agents often begins with imitation learning, but it only teaches agents what to do without understanding why: agents never contrast successful actions against suboptimal alternatives and thus lack awareness of action quality. Recent approaches attempt to address this by introducing self-reflection supervision derived from contrasts between expert and alternative actions. However, the training paradigm fundamentally remains imitation learning: the model imitates pre-constructed reflection text rather than learning to reason autonomously. We propose Agentic Critical Training (ACT), a reinforcement learning paradigm that trains agents to identify the better action among alternatives. By rewarding whether the model's judgment is correct, ACT drives the model to autonomously develop reasoning about action quality, producing genuine self-reflection rather than imitating it. Across three challenging agent benchmarks, ACT consistently improves agent performance when combined with different post-training methods. It achieves an average improvement of 5.07 points over imitation learning and 4.62 points over reinforcement learning. Compared to approaches that inject reflection capability through knowledge distillation, ACT also demonstrates clear advantages, yielding an average improvement of 2.42 points. Moreover, ACT enables strong out-of-distribution generalization on agentic benchmarks and improves performance on general reasoning benchmarks without any reasoning-specific training data, highlighting the value of our method. These results suggest that ACT is a promising path toward developing more reflective and capable LLM agents.
研究の動機と目的
- 模倣学習を超えて、LLMエージェントにおける行動品質の理解を教えることを動機づける。
- 専門家の行動とモデル生成の代替案を組み合わせるデータ構築とRLベースの訓練パラダイムを導入する。
- ACTが複数のエージェント指向ベンチマークで性能を向上させ、OODタスクと一般的推論へ一般化することを示す。
提案手法
- 専門家の行動と初期ポリシーからサンプリングした代替案を組み合わせて対比的なACT例を構築する。
- 検証可能な報酬を用いて2つの候補のうちより良い行動を識別するためにGroup Relative Policy Optimization(GRPO)で訓練する。
- ACTに続くGRPOベースのRL行動訓練で直接的な行動生成を向上させる。
- 正確な行動一致、許容可能な代替案、フォーマット罰則を組み合わせた複合報酬を用いる。
- ACTデータのモデルサイズ間でのデータ転移性を示す。
実験結果
リサーチクエスチョン
- RQ1行動品質判断に対する強化学習は、反映を模倣するのではなく真の自己反省をLLMエージェントにもたらすのか。
- RQ2ACTはILやRLパイプラインを改善するのか、また多様なエージェント指向ベンチマークにおけるEarly Experienceとどう比較されるのか。
- RQ3ACTは推論特化データなしで分布外タスクと一般的推論ベンチマークへどの程度一般化するのか。
- RQ4ACTデータをあるモデルサイズで収集して、より小さなモデルやより大きなモデルの訓練に再利用できるのか。
- RQ5ACTはMATH-500やGPQA-Diamondのような一般的推論ベンチマークの改善に寄与するのか。
主な発見
| 方法 | ALFWorld_ID | ALFWorld_OOD | WebShop_ID | ScienceWorld_ID |
|---|---|---|---|---|
| CoT思考なしプロンプト | 35.71 | 27.61 | 2.80 | 28.01 |
| CoT思考ありプロンプト | 56.43 | 50.00 | 3.00 | 25.21 |
| ACT | 72.86 | 72.39 | 7.40 | 26.71 |
| 模倣学習 | 85.71 | 82.84 | 28.00 | 42.80 |
| Early Experience(自己反省) | 87.86 | 85.82 | 31.00 | 45.60 |
| IL w/ ACT | 91.43 | 87.31 | 31.60 | 48.69 |
| RL | 90.71 | 84.33 | 29.40 | 43.04 |
| RL w/ ACT | 92.86 | 88.06 | 33.80 | 50.34 |
- ACTは3つのエージェント指向ベンチマーク全体で、模倣学習に対して平均5.07ポイント、強化学習に対して平均4.62ポイントの利得を生み出す。
- ACTはEarly Experienceを平均2.42ポイント上回る。
- ACTはエージェント指向ベンチマークのOOD一般化を改善し、OODタスクでより大きな利得を示す。
- ACTで訓練されたモデルは推論特化データなしでも一般的推論ベンチマーク(MATH-500とGPQA-Diamond)へ転移し、試験された手法の中で最も高いスコアを達成する。
- ACTは学習済みの推論を通じて失敗からの回復と内部的自己批判を可能にし、純粋な模倣ベースの方針でみられる反復的な失敗行動を減らす。
- クロスサイズのACTデータ転送は、小さなモデルの訓練にも有効であり、データ収集コストの償却効果を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。