[論文レビュー] Agent Q: Advanced Reasoning and Learning for Autonomous AI Agents
Agent Q は guided Monte Carlo Tree Search、AI self-critique、および offline Direct Preference Optimization を組み合わせて LLM-based web agents を訓練し、WebShop および実世界の予約タスクにおいて、強力な多段推論とゼロショットおよびオンライン検索性能の向上を達成する。
Large Language Models (LLMs) have shown remarkable capabilities in natural language tasks requiring complex reasoning, yet their application in agentic, multi-step reasoning within interactive environments remains a difficult challenge. Traditional supervised pre-training on static datasets falls short in enabling autonomous agent capabilities needed to perform complex decision-making in dynamic settings like web navigation. Previous attempts to bridge this ga-through supervised fine-tuning on curated expert demonstrations-often suffer from compounding errors and limited exploration data, resulting in sub-optimal policy outcomes. To overcome these challenges, we propose a framework that combines guided Monte Carlo Tree Search (MCTS) search with a self-critique mechanism and iterative fine-tuning on agent interactions using an off-policy variant of the Direct Preference Optimization (DPO) algorithm. Our method allows LLM agents to learn effectively from both successful and unsuccessful trajectories, thereby improving their generalization in complex, multi-step reasoning tasks. We validate our approach in the WebShop environment-a simulated e-commerce platform where it consistently outperforms behavior cloning and reinforced fine-tuning baseline, and beats average human performance when equipped with the capability to do online search. In real-world booking scenarios, our methodology boosts Llama-3 70B model's zero-shot performance from 18.6% to 81.7% success rate (a 340% relative increase) after a single day of data collection and further to 95.4% with online search. We believe this represents a substantial leap forward in the capabilities of autonomous agents, paving the way for more sophisticated and reliable decision-making in real-world settings.
研究の動機と目的
- imitation learning を超えた長期的なタスクにおける自律ウェブエージェントの意思決定の改善。
- guided MCTS を活用して訓練のための情報量が多い軌跡を収集。
- AI self-critique を用いて中間報酬を提供し探索を導く。
- off-policy variant of Direct Preference Optimization (DPO) を用いたオフラインでのエージェントの微調整により、成功軌跡と失敗軌跡の双方から学習。
- WebShop ベンチマークと実世界の予約シナリオでの成果を示す。
提案手法
- DOM ベースの観測と複合行動を用いたウェブナビゲーションとして問題を POMDP に定式化する。
- proposal distribution としてベースモデルを用いたウェブページ上の Monte Carlo Tree Search (MCTS) と、各ノードでの行動を AI による自己批評でスコアリングする。
- 探索・展開・シミュレーション(ロールアウト)・バックプロパゲーションの4段階の MCTS を取り入れ、探索と絞り込みのバランスを UCB1 で取る。
- 現在のポリシーで軌跡をロールアウトし、最終報酬(成功/失敗)をバックプロパゲートして Q 値を更新。
- 軌跡からノードレベルの好みを構築し、DPO のオフポリシー変種を用いてオフポリシーの再生バッファを参照モデルとして使用し、最適化。
- WebShop および実世界の予約タスクを LLaMa-3-70B をベースモデルとして評価し、ゼロショットの改善とオンライン検索の利得を示す。
実験結果
リサーチクエスチョン
- RQ1 guided MCTS と AI self-critique は自律ウェブエージェントの探索とポリシー品質を向上させるか?
- RQ2 MCTS 由来の軌跡に対する Offline DPO 微調整は、行動模倣や強化学習ベースラインより一般化が良くなるか?
- RQ3 Agent Q は WebShop のようなシミュレート環境と実世界の予約タスクで、オンライン検索の有無でどう性能が変わるか?
- RQ4 長期的なウェブ相互作用のコンパクトな履歴表現を用いることが学習効率と性能に与える影響は何か?
主な発見
- Agent Q+MCTS は WebShop の成功率をベースモデルより著しく向上させ、オンライン検索が利用可能な場合は平均的な人間のパフォーマンスを上回る。
- 実世界の予約シナリオでは、データ収集1日後のゼロショット成功率が 18.6% から 81.7% に上昇し、オンライン検索を搭載すると 95.4% へとさらなる改善。
- MCTS の軌跡からの好みを用いた Offline DPO 微調整は、行動模倣や単純な強化学習微調整ベースラインより顕著な改善をもたらす(例: WebShop ベースライン with DPO が 40.6%、31.3% RFT)。
- ノードレベルでの AI フィードバックと自己批評は探索を導き、長期的タスクにおける希薄な報酬信号を扱い、最終的なエージェントの成功率を向上させる。
- 本アプローチは、探索、自己批評、オフラインの好みベース学習を組み合わせることで、模倣ベースの手法を大幅に超える自律ウェブエージェントの進展を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。