[論文レビュー] Language Models can Solve Computer Tasks
この論文は Recursive Criticism and Improvement (RCI) prompting を導入し、LLM エージェントが自然言語によるコンピュータタスクの実行を可能にし、デモが少なくタスク固有の報酬なしで MiniWoB++ において最先端の成果を達成します。
Agents capable of carrying out general tasks on a computer can improve efficiency and productivity by automating repetitive tasks and assisting in complex problem-solving. Ideally, such agents should be able to solve new computer tasks presented to them through natural language commands. However, previous approaches to this problem require large amounts of expert demonstrations and task-specific reward functions, both of which are impractical for new tasks. In this work, we show that a pre-trained large language model (LLM) agent can execute computer tasks guided by natural language using a simple prompting scheme where the agent Recursively Criticizes and Improves its output (RCI). The RCI approach significantly outperforms existing LLM methods for automating computer tasks and surpasses supervised learning (SL) and reinforcement learning (RL) approaches on the MiniWoB++ benchmark. We compare multiple LLMs and find that RCI with the InstructGPT-3+RLHF LLM is state-of-the-art on MiniWoB++, using only a handful of demonstrations per task rather than tens of thousands, and without a task-specific reward function. Furthermore, we demonstrate RCI prompting's effectiveness in enhancing LLMs' reasoning abilities on a suite of natural language reasoning tasks, outperforming chain of thought (CoT) prompting with external feedback. We find that RCI combined with CoT performs better than either separately. Our code can be found here: https://github.com/posgnu/rci-agent.
研究の動機と目的
- 自然言語コマンドでコンピュータタスクを解く一般に知的なエージェントの構築を動機づける。
- prompting を用いた LLM ベースのエージェントが、コンピュータタスクにおける SL および RL のベースラインを上回ることを示す。
- 新しいタスクに対してデータ要件を削減し、タスク固有の報酬信号を回避する RC I の効果を示す。
- RCI が推論ベンチマーク全体でコンピュータタスクを超えた LLM 推論を改善することを示す。
提案手法
- Recursive Criticism and Improvement (RCI) prompting を導入し、LLM が最初に計画を出し、それを批評・改善する。
- 行動サンプリングをタスク grounding、状態 grounding、エージェント grounding に分解する。
- 計画生成には明示的な RCI を、現在の状態とエージェント制約に基づく行動 grounding には暗黙的な RCI を適用する。
- MiniWoB++ に対して InstructGPT-3+RLHF モデルを用い、タスクあたり数件のデモで評価する。
- RCI をゼロショット prompting および Chain-of-Thought prompting(CoT ハイブリッドを含む)と比較する。
- RCI が CoT と組み合わせることで推論をさらに強化できることを強調する。
実験結果
リサーチクエスチョン
- RQ1タスク固有の報酬や大規模な専門家データセットなしに、自然言語で誘導されたコンピュータタスクを実行できる LLM エージェントは存在するか。
- RQ2RCI はタスク grounding、状態 grounding、エージェント grounding を改善し、MiniWoB++ の全体的なタスク成功に寄与するか。
- RQ3RCI は標準ベンチマーク上の推論を改善する Chain-of-Thought prompting との相互作用をどうするか。
主な発見
| データセット | ゼロショット | ゼロショット + RCI |
|---|---|---|
| GSM8K | 77.95 | 85.43 |
| MultiArith | 94.48 | 97.64 |
| AddSub | 88.58 | 89.76 |
| SVAMP | 80.70 | 84.65 |
| SingleEq | 86.61 | 94.49 |
| AQuA | 60.23 | 67.32 |
| CommonSenseQA | 64.56 | 68.11 |
| StrategyQA | 48.81 | 61.81 |
- RCI prompting は MiniWoB++ において既存の SL、RL、LLM アプローチを大幅に上回る。
- InstructGPT-3+RLHF を用いた場合、RCI は各タスクにつき少数のデモのみで MiniWoB++ における最先端性能を達成し、タスク固有の報酬関数を用いない。
- RCI はゼロショットプロンプトに比べて、8つの推論ベンチマーク(算術や常識系)でパフォーマンスを向上させる。
- RCI は Chain-of-Thought prompting と組み合わせたときに相乗効果を示し、しばしば単独よりも優れる。
- アブレーション研究は、タスク grounding、状態 grounding、エージェント grounding のそれぞれが性能に有意に寄与し、長く複雑なタスクを扱う際には状態 grounding が重要であることを示す。
- RCI は CC-Net に比べて約120倍、CC-Net に比べて約11,000倍少ないデモで強い結果を達成する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。