QUICK REVIEW

[논문 리뷰] OpenAgents: An Open Platform for Language Agents in the Wild

Tianbao Xie, Fan Zhou|arXiv (Cornell University)|2023. 10. 16.

Multi-Agent Systems and Negotiation인용 수 11

한 줄 요약

OpenAgents는 언어 에이전트를 위한 오픈 소스 플랫폼을 제공하며, 웹 UI, 로컬 배포 및 실전 환경에서의 언어 에이전트 평가를 가능하게 하는 연구자 친화적 구성요소를 갖춘 Data, Plugins, Web의 세 가지 언어 에이전트를 호스팅합니다.

ABSTRACT

Language agents show potential in being capable of utilizing natural language for varied and intricate tasks in diverse environments, particularly when built upon large language models (LLMs). Current language agent frameworks aim to facilitate the construction of proof-of-concept language agents while neglecting the non-expert user access to agents and paying little attention to application-level designs. We present OpenAgents, an open platform for using and hosting language agents in the wild of everyday life. OpenAgents includes three agents: (1) Data Agent for data analysis with Python/SQL and data tools; (2) Plugins Agent with 200+ daily API tools; (3) Web Agent for autonomous web browsing. OpenAgents enables general users to interact with agent functionalities through a web user interface optimized for swift responses and common failures while offering developers and researchers a seamless deployment experience on local setups, providing a foundation for crafting innovative language agents and facilitating real-world evaluations. We elucidate the challenges and opportunities, aspiring to set a foundation for future research and development of real-world language agents.

연구 동기 및 목표

비전문가와 연구자 모두를 위해 열려 있고 사용자 친화적인 플랫폼을 제공하여 언어 에이전트에 대한 접근성을 민주화한다.
Data Agent, Plugins Agent, Web Agent의 세 가지 에이전트를 통해 실제 현장 작업을 가능하게 한다.
사용자용 웹 UI, 개발자용 로컬 배포, 연구자용 연구 훅을 포함한 엔드 투 엔드 배포 지원을 제공한다.
현장에서의 에이전트 구축에 수반되는 실용적 도전 과제를 조사하고 아키텍처 및 도구 솔루션을 제시한다.

제안 방법

두 부분으로 구성된 플랫폼 설계: (a) 사용자-에이전트 상호작용을 위한 사용자 인터페이스(프런트엔드와 백엔드); (b) 모델, 도구, 환경을 포함한 언어 에이전트 핵심.
세 가지 통합 에이전트: Data Agent (도구를 이용한 Python/SQL 데이터 분석), Plugins Agent (200+ 도구), Web Agent (자율적 브라우징).
ReAct에서 영감을 받은 관찰-숙고-동작 루프를 기반으로 한 프롬프트 설계로 도구 사용 및 API 호출의 구문 해석 가능한 출력 제공.
안전한 현장 실행을 가능하게 하는 샌드박스 환경과 웹 브라우저 제어를 위한 Chrome 확장 프로그램.
다수의 플러그인 및 도구 API를 처리하기 위한 자동 도구 선택 및 확장, 스트리밍, 오류 처리 및 강력한 백엔드 로직.

실험 결과

연구 질문

RQ1다양한 사용자 요구에 걸친 실제 현장 배치 및 평가를 오픈 플랫폼이 어떻게 지원할 수 있는가?
RQ2현장에서 작동하는 에이전트를 구축할 때의 설계 및 엔지니어링 과제는 무엇이며 도구가 이를 어떻게 완화할 수 있는가?
RQ3실용적인 세 가지 에이전트 유형(데이터, 플러그인, 웹)이 실제 현장 작업에서 어떻게 수행되며 어떤 평가 신호가 가장 유익한가?
RQ4UI, 배포, 그라운딩, 도구 오케스트레이션 등 개발 패턴이 확장 가능하고 강력한 에이전트 생태계를 어떻게 가능하게 하는가?

주요 결과

인터페이스	환경	이름	온라인	사람 피드백	UI	코딩 환경	#도구	웹
OpenGPT-like	Wild	AutoGPT (Gravitas, 2023)	✗	✓	CLI	Wild	15	✓
OpenGPT-like	Controlled	BMTools (Qin et al., 2023a)	✗	✗	-	Controlled	-	-
OpenGPT-like	Controlled	BabyAGI (Nakajima, 2023)	✗	✗	-	Controlled	-	-
OpenGPT-like	Controlled	Gentopia (Xu et al., 2023a)	✗	✓	CLI	Controlled	15	✗∗
OpenGPT-like	Wild	Open Interpreter (Lucas, 2023)	✗	✓	CLI	Wild	1	✗
OpenGPT-like	-	GAs (Park et al., 2023)	✗	✗	Web	-	-	-
OpenGPT-like	Web	AgentVerse (Chen et al., 2023)	✗	✗	Web	-	-	-
OpenGPT-like	-	Camel (Li et al., 2023b)	✓	✗	Web	-	-	-
OpenGPT-like	Wild	Agents (Zhou et al., 2023c)	✓	✓	Web	Wild	11	✗∗
OpenAgents (ours)	Controlled & Wild	OpenAgents (ours)	✓	✓	Web	Controlled & Wild	≥200+	✓+

OpenAgents는 광범위한 도구 접근성과 최종 사용자를 위한 웹 UI를 갖춘 세 가지 에이전트를 배포할 수 있다.
플랫폼은 실시간 스트리밍, 견고한 오류 처리, 안전한 샌드박스 환경에 중점을 두어 사용자 경험과 신뢰성을 향상시킨다.
자동 도구 선택 및 확장은 최종 사용자의 수동 플러그인 관리 부담을 줄여준다.
실제 현장 배치에서 프롬프트 복잡성, 스트리밍의 이점, 신뢰성을 위해 웹 브라우징과 채팅 오케스트레이션을 분리할 필요성 등 도전과제를 드러낸다.
OpenAgents는 연구 및 실제 언어 에이전트 개발을 가속화하는 재사용 가능한 코드베이스와 구성요소를 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.