[論文レビュー] OpenHands: An Open Platform for AI Software Developers as Generalist Agents
OpenHandsは、コミュニティ主導のプラットフォームで、AIエージェントがコードを作成して世界と相互作用し、Dockerサンドボックスで実行し、ウェブを閲覧することを可能にします。15のベンチマークで評価され、マルチエージェント委任機能をサポートします。
Software is one of the most powerful tools that we humans have at our disposal; it allows a skilled programmer to interact with the world in complex and profound ways. At the same time, thanks to improvements in large language models (LLMs), there has also been a rapid development in AI agents that interact with and affect change in their surrounding environments. In this paper, we introduce OpenHands (f.k.a. OpenDevin), a platform for the development of powerful and flexible AI agents that interact with the world in similar ways to those of a human developer: by writing code, interacting with a command line, and browsing the web. We describe how the platform allows for the implementation of new agents, safe interaction with sandboxed environments for code execution, coordination between multiple agents, and incorporation of evaluation benchmarks. Based on our currently incorporated benchmarks, we perform an evaluation of agents over 15 challenging tasks, including software engineering (e.g., SWE-BENCH) and web browsing (e.g., WEBARENA), among others. Released under the permissive MIT license, OpenHands is a community project spanning academia and industry with more than 2.1K contributions from over 188 contributors.
研究の動機と目的
- ソフトウェア開発と実世界の相互作用が可能なAIエージェントの必要性を動機づける。
- 一般・専門エージェントを構築、評価、そして安全に実行するためのプラットフォームアーキテクチャを提案する。
- マルチエージェント委任と共有評価フレームワークを通じたエージェント間協力を可能にする。
- 研究と応用を促進するための、オープンでコミュニティ主導のエージェントとツールのハブを提供する。
提案手法
- アクションと観察のイベントストリームを介して環境と相互作用するエージェント抽象を定義する。
- アクション実行のためのbashシェル、IPythonサーバ、Playwrightベースのブラウザを備えたDockerサンドボックス化されたランタイムを提供する。
- 再利用可能なツールのためのAgentSkillsライブラリと、(IPythonRunCellAction、CmdRunAction、BrowseInteractiveAction)などのPLベースのアクションプリミティブを導入する。
- AgentDelegateActionを介してマルチエージェント委任をサポートし、専門エージェントを組み合わせてタスクを解決する。
- ソフトウェアエンジニアリング、ウェブ閲覧、その他のタスクを横断する15のベンチマークを備えた評価フレームワークを提供する。
実験結果
リサーチクエスチョン
- RQ1OpenHandsは人間のソフトウェアエンジニアのように動作する多用途なエージェントをどのように定義・実装できるか?
- RQ2Dockerサンドボックスランタイム内でアクションが観察へどのように変換されるか?
- RQ3エージェントはタスク間で再利用可能なスキルとツールをどのように拡張できるか?
- RQ4ソフトウェアエンジニアリング、ウェブ閲覧、その他の支援ベンチマークにおいてOpenHandsエージェントはどの程度効果的か?
主な発見
- OpenHandsはジェネラリストとスペシャリストエージェントを用いて、ソフトウェアエンジニアリング、ウェブ閲覧、その他のベンチマークで競争力のある性能を達成する。
- HumanEvalFix (Python subset) において、OpenHands CodeActAgentは79.3%のバグ修正成功率を達成し、多くの非エージェント系ベースラインを上回る。
- ウェブ閲覧の結果はOH BrowsingAgentと委任構成で競争力のある性能を示す。例えば、gpt-4o-mini-2024-07-18を用いたOH BrowsingAgent v1.0はMiniWoB++で0コストで27.2%の成功、gpt-4o-2024-05-13では40.8%を達成。
- その他のベンチマークでは、Claude-3-5-Sonnetを搭載したOH CodeActAgent v1.8がGPQAで52.0%、gpt-4o-2024-05-13を用いたOH CodeActAgent v1.5がMINTコードサブセットで77.3%を達成。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。