[論文レビュー] OS-Copilot: Towards Generalist Computer Agents with Self-Improvement
OS-Copilot は OSレベルのジェネラリストエージェントのフレームワークを提示し、FRIDAY という自己改善型 embodiment エージェントを導入。自己指向カリキュラム学習を通じて未知のアプリの制御を学習し、GAIA ベンチマークで顕著な改善を達成。
Autonomous interaction with the computer has been a longstanding challenge with great potential, and the recent proliferation of large language models (LLMs) has markedly accelerated progress in building digital agents. However, most of these agents are designed to interact with a narrow domain, such as a specific software or website. This narrow focus constrains their applicability for general computer tasks. To this end, we introduce OS-Copilot, a framework to build generalist agents capable of interfacing with comprehensive elements in an operating system (OS), including the web, code terminals, files, multimedia, and various third-party applications. We use OS-Copilot to create FRIDAY, a self-improving embodied agent for automating general computer tasks. On GAIA, a general AI assistants benchmark, FRIDAY outperforms previous methods by 35%, showcasing strong generalization to unseen applications via accumulated skills from previous tasks. We also present numerical and quantitative evidence that FRIDAY learns to control and self-improve on Excel and Powerpoint with minimal supervision. Our OS-Copilot framework and empirical findings provide infrastructure and insights for future research toward more capable and general-purpose computer agents.
研究の動機と目的
- ウェブ、ファイル、端末、アプリなど、さまざまなOSコンポーネントと相互作用できるジェネラリストな computer エージェントの開発を促す。
- アプリケーション間の汎用化を可能にする統一的な OS 連携インターフェースと記憶駆動型コンフィギュレータを提案する。
- 自律的カリキュラム学習を通じて未知のアプリの制御を学習する自己改善型 embodiment エージェント(FRIDAY)を実証する。
- FRIDAY の GAIA での性能と、Excel や PowerPoint などのタスクに対する自己指向的学習の能力を示す。
提案手法
- Python インタプリタ、bash、マウス/キーボード操作、API 呼び出しを統合した普遍的な OS 連携フレームワークとして OS-Copilot を導入する。
- タスクを分解しフィードバックを収集するため、実行・批評・記憶モジュールを備えたプランナー、コンフィギュレータ、アクターを定義する。
- 有向非巡回グラフプランナーを用いてタスク依存関係をモデル化し、並列サブタスクを可能にする。
- 長期的な知識と技能のために宣言的メモリ(ユーザープロファイル、セマンティック知識)と手続き的メモリ(ツールリポジトリ)を実装する。
- FRIDAY では、未知のアプリケーションに対してタスクのカリキュラムを提案し、タスクの解決を通じてツールを蓄積する自己指向型学習モジュールを採用する。
- GAIA で FRIDAY を評価し、アブレーション(FRIDAY w/o learning)を含め、AutoGPT-4 やGPT-4 Plugins などのベースラインと比較する。
実験結果
リサーチクエスチョン
- RQ1OSレベルの言語エージェントは、ウェブや端末を超えた広範なアプリケーションに一般化できるか。
- RQ2自己改良ループ(計画・実行・批評・洗練・学習)はオープンワールドOSタスクのパフォーマンスを高めるか。
- RQ3自己指向学習は未知のアプリケーションにおける新しいツールと能力の獲得をどのように促進するか。
- RQ4GAIA における FRIDAY の性能と一般化能力は既存システムと比べてどうか。
主な発見
| Level | Level 1 | Level 2 | Level 3 | Human* |
|---|---|---|---|---|
| Level | Level 1 | Level 2 | Level 3 | Human* |
| GPT-4 | 9.68 | 1.89 | 0 | |
| GPT-4-Turbo | 9.68 | 6.92 | 0 | |
| AutoGPT-4 | 15.05 | 0.63 | 0 | |
| GPT-4 Plugins | 30.30 | 9.70 | 0 | |
| FRIDAY w/o learning | 36.56 | 17.61 | 6.12 | |
| FRIDAY | 40.86 | 20.13 | 6.12 |
- FRIDAY は GAIA level-1 のタスクで 40.86% の成功を達成し、前ベストシステム(30.3%)に対して相対で 35% の改善を示す。
- FRIDAY は GAIA level-2 タスクで 20.13%、level-3 タスクで 6.12% に達し、いくつかのベースラインを上回る。
- FRIDAY w/o learning はすでにベースラインを上回り、アーキテクチャの有効性を示す。自己指向型学習はさらに性能を向上させる。
- 表計算タスクデータセットにおける自己指向学習実験で、FRIDAY は 60% の成功を達成し、SheetCopilot のベースラインを上回った。
- FRIDAY は最小限の監督で Excel と PowerPoint の制御を学習し、ツールを自律的に蓄積する。
- このフレームワークは、ツールの数だけでなく、プランナー、クリティック、リファイナーの重要性を強調する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。