QUICK REVIEW

[논문 리뷰] OS-Copilot: Towards Generalist Computer Agents with Self-Improvement

Zhiyong Wu, Chengcheng Han|arXiv (Cornell University)|2024. 02. 12.

Multi-Agent Systems and Negotiation인용 수 5

한 줄 요약

OS-Copilot은 OS 수준의 일반 목적 에이전트를 위한 프레임워크를 제시하고, FRIDAY를 소개한다. FRIDAY는 자기 주도 커리큘럼 학습을 통해 보지 못한 애플리케이션 제어를 학습하는 자가 개선 embodied 에이전트로, GAIA 벤치마크에서 주목할 만한 개선을 달성한다.

ABSTRACT

Autonomous interaction with the computer has been a longstanding challenge with great potential, and the recent proliferation of large language models (LLMs) has markedly accelerated progress in building digital agents. However, most of these agents are designed to interact with a narrow domain, such as a specific software or website. This narrow focus constrains their applicability for general computer tasks. To this end, we introduce OS-Copilot, a framework to build generalist agents capable of interfacing with comprehensive elements in an operating system (OS), including the web, code terminals, files, multimedia, and various third-party applications. We use OS-Copilot to create FRIDAY, a self-improving embodied agent for automating general computer tasks. On GAIA, a general AI assistants benchmark, FRIDAY outperforms previous methods by 35%, showcasing strong generalization to unseen applications via accumulated skills from previous tasks. We also present numerical and quantitative evidence that FRIDAY learns to control and self-improve on Excel and Powerpoint with minimal supervision. Our OS-Copilot framework and empirical findings provide infrastructure and insights for future research toward more capable and general-purpose computer agents.

연구 동기 및 목표

다양한 OS 구성요소(웹, 파일, 터미널, 앱)와 상호작용할 수 있는 일반 목적 컴퓨터 에이전트 개발을 촉진한다.
다양한 애플리케이션 간 일반화를 가능하게 하는 통합 OS 상호작용 인터페이스 및 메모리 기반 구성 장치를 제안한다.
낯선 애플리케이션을 자율 커리큘럼 학습으로 제어하는 자가 개선 embodied 에이전트(FRIDAY)를 시연한다.
FRIDAY의 GAIA 성능 및 Excel과 PowerPoint와 같은 작업에서의 자체 주도 학습 능력을 보여준다.

제안 방법

Python 해석기, bash, 마우스/키보드 제어, API 호출을 통합하는 보편적 OS 인터랙션 프레임워크로서 OS-Copilot을 도입한다.
태스크를 분해하고 피드백을 수집하기 위한 실행, 비판, 메모리 모듈을 갖춘 planner, configurator, actor를 정의한다.
작업 의존성을 모델링하고 병렬 하위 작업을 가능하게 하는 directed acyclic graph planner를 사용한다.
장기 지식과 기술을 위한 선언적 메모리(사용자 프로필, 의미 지식)와 절차적 메모리(도구 저장소)를 구현한다.
FRIDAY에서 에이전트가 낯선 애플리케이션을 위한 커리큘럼을 제안하고 작업 해결을 통해 도구를 축적하는 자가 주도 학습 모듈을 활용한다.
FRIDAY를 GAIA에서 학습 없는 FRIDAY w/o learning 등 가지치기로 평가하고 AutoGPT-4 및 GPT-4 Plugins와 같은_baselines와 비교한다.

실험 결과

연구 질문

RQ1OS 수준의 언어 에이전트가 웹과 터미널을 넘어 광범위한 애플리케이션에 일반화할 수 있는가?
RQ2계획, 실행, 비판, 정교화, 학습으로 구성된 자기 개선 루프가 오픈 월드 OS 작업의 성능을 향상시키는가?
RQ3자기 주도 학습이 보이지 않는 애플리케이션에 대한 새로운 도구와 역량의 획득을 가능하게 하는가?
RQ4FRIDAY의 GAIA 성능 및 일반화 능력이 기존 시스템과 비교해 어떤가?

주요 결과

수준	수준 1	수준 2	수준 3	사람*
수준	수준 1	수준 2	수준 3	사람*
GPT-4	9.68	1.89	0
GPT-4-Turbo	9.68	6.92	0
AutoGPT-4	15.05	0.63	0
GPT-4 Plugins	30.30	9.70	0
FRIDAY w/o learning	36.56	17.61	6.12
FRIDAY	40.86	20.13	6.12

FRIDAY는 GAIA 레벨-1 작업에서 40.86%의 성공을 달성하며, 이전 최고 시스템(30.3%)에 비해 상대적으로 35% 향상되었다.
FRIDAY는 GAIA 레벨-2에서 20.13%, 레벨-3에서 6.12%를 달성하여 여러 베이스라인을 상회한다.
학습 없이 FRIDAY도 이미 베이스라인을 능가하여 구조의 효율성을 입증하며, 자기 주도 학습은 성능을 추가로 향상시킨다.
셀프 주도 학습 실험에서 스프레드시트 작업 데이터세트에서 FRIDAY가 60%의 성공을 달성하여 SheetCopilot 베이스라인을 넘어섰다.
FRIDAY는 최소한의 감독으로 Excel과 PowerPoint 제어를 학습하고 도구를 자동으로 축적한다.
프레임워크는 도구 수량 그 자체보다 계획자, 비평가, 정제기의 중요성을 강조하여 고급 일반화를 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.