[論文レビュー] LLMs Still Can't Plan; Can LRMs? A Preliminary Evaluation of OpenAI's o1 on PlanBench
この論文は OpenAI の o1(OpenAI Large Reasoning Model)を PlanBench とバニラ LLMs に対してベンチマーク評価し、従来のプランナーと比較して顕著だが未完成の計画能力、効率/コスト、保証に関する懸念があることを示している。
The ability to plan a course of action that achieves a desired state of affairs has long been considered a core competence of intelligent agents and has been an integral part of AI research since its inception. With the advent of large language models (LLMs), there has been considerable interest in the question of whether or not they possess such planning abilities. PlanBench, an extensible benchmark we developed in 2022, soon after the release of GPT3, has remained an important tool for evaluating the planning abilities of LLMs. Despite the slew of new private and open source LLMs since GPT3, progress on this benchmark has been surprisingly slow. OpenAI claims that their recent o1 (Strawberry) model has been specifically constructed and trained to escape the normal limitations of autoregressive LLMs--making it a new kind of model: a Large Reasoning Model (LRM). Using this development as a catalyst, this paper takes a comprehensive look at how well current LLMs and new LRMs do on PlanBench. As we shall see, while o1's performance is a quantum improvement on the benchmark, outpacing the competition, it is still far from saturating it. This improvement also brings to the fore questions about accuracy, efficiency, and guarantees which must be considered before deploying such systems.
研究の動機と目的
- 最新の LLM と OpenAI の o1 Large Reasoning Model が PlanBench のタスクで効果的に計画を立てられるかを評価する。
- ブロックワールドの変種および難読化されたドメインにわたって、o1 のパフォーマンスを代表的な LLM と比較する。
- LRMs と従来のプランナーとの間で、効率性、コスト、および正確性保証の有無を検討する。
提案手法
- 複数のモデルを用いて、600 Blocksworldと600 Mystery Blocksworldの固定セットで PlanBench を実行する。
- o1 の出力を厳密なスコアリングのための評価可能な計画表現(PDDL)に翻訳する。
- モデル間で精度、インスタンスごとの時間、および prompting コストを記録する。
- Fast Downward(古典的プランナー)と比較し、代替として LLM-Modulo アプローチを検討する。
- 解けないインスタンスの識別と o1 の潜在的な信頼性問題を分析する。
実験結果
リサーチクエスチョン
- RQ1PlanBench におけるベニラ LLM の性能は、OpenAI の o1 Large Reasoning Models と比較してどうか?
- RQ2PlanBench の難読化されたバリアント(Mystery Blocksworld)に対して、LRMs は堅牢な計画性能を実現するか?
- RQ3古典的プランナーおよび LLM ベースのアプローチと比較した場合、計画に LRMs を使用する際の効率性、コスト、保証のトレードオフは何か?
主な発見
- Blocksworld では、最良の LLM(LLaMA 3.1 405B)は 62.6% の精度を達成し、o1-preview は最大 97.8%(Blocksworld、zero-shot)を達成する。
- Mystery Blocksworld では、o1-preview は 52.8% の精度を達成し、以前のモデルよりはるかに高いが、まだ完全ではない。
- Randomized Mystery Blocksworld では、o1-preview は 37.3% の精度に達し、難読化の課題を示している。
- 問題サイズが大きくなると性能が著しく低下する。110 個の大規模 Blocksworld 問題(6–20 ブロック、20–40 ステップ)では o1-preview の精度は 23.63% に低下する。
- LRMs は LLMs よりも 100 インスタンスあたりのコストがはるかに高くなる(例:o1-mini は $42.12、いくつかの LLM は $0.65)、また従来のプランナーが同じタスクで 100% の正確性保証をほぼ瞬時の効率で達成するのとは異なり、正確性の保証を欠く。
- Fast Downward のような古典的プランナーは、テストされたすべてのインスタンスを瞬時に解き、保証付き(インスタンスあたり 0.265 秒)で、ほぼゼロコストで、LRMs に対して強い効率性のギャップを強調している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。