QUICK REVIEW

[논문 리뷰] AgentSims: An Open-Source Sandbox for Large Language Model Evaluation

Jiaju Lin, Haoran Zhao|arXiv (Cornell University)|2023. 08. 08.

Topic Modeling인용 수 13

한 줄 요약

AgentSims는 생성적 에이전트, 메모리/계획/도구 사용 시스템, 그리고 구성 가능한 건물/장비를 갖춘 작업 기반 시뮬레이션을 통해 LLM을 평가하기 위한 대화형 오픈 소스 샌드박스를 제공합니다.

ABSTRACT

With ChatGPT-like large language models (LLM) prevailing in the community, how to evaluate the ability of LLMs is an open question. Existing evaluation methods suffer from following shortcomings: (1) constrained evaluation abilities, (2) vulnerable benchmarks, (3) unobjective metrics. We suggest that task-based evaluation, where LLM agents complete tasks in a simulated environment, is a one-for-all solution to solve above problems. We present AgentSims, an easy-to-use infrastructure for researchers from all disciplines to test the specific capacities they are interested in. Researchers can build their evaluation tasks by adding agents and buildings on an interactive GUI or deploy and test new support mechanisms, i.e. memory, planning and tool-use systems, by a few lines of codes. Our demo is available at https://agentsims.com .

연구 동기 및 목표

단일 턴 벤치마크와 개방형 QA 메트릭의 한계를 극복하기 위한 작업 기반 평가의 필요성을 촉진한다.
다양한 분야의 연구자들이 시뮬레이티드 도시에서 LLM 기반 에이전트를 만들고 테스트할 수 있도록 시각적이고 확장 가능한 플랫폼을 소개한다.
에이전트 성능에 대한 영향을 연구하기 위해 모듈식 지원 시스템(메모리, 계획, 도구 사용)을 제공한다.
과제 설계에 대한 진입 장벽을 낮추고 학제 간 재현 가능한 실험을 촉진한다.

제안 방법

AgentSims를 생성 에이전트와 건물/장비라는 두 가지 주요 구성요소를 가진 대화형 인프라로 제시한다.
에이전트를 위한 세 가지 지원 메커니즘: 계획 시스템, 메모리 시스템, 도구 사용 시스템을 설명한다.
메모리가 벡터 데이터베이스에 저장되고 상호 작용 간 일관성을 유지하기 위해 어떻게 검색되는지 설명한다.
건물 안에 장비가 포함되고 상호 작용은 미리 정의되었거나 모델 생성 지원 함수에 의해 지배되는 유연하고 모듈식 아키텍처를 정의한다.
접근성 및 고급 사용자 맞춤화를 위해 두 가지 사용자 인터랙션 모드(User Mode와 Developer Mode)를 제공한다.
다음 구현 세부 정보를 제공한다: Tornado를 가진 Python 3.9 백엔드, MySQL; Unity 기반 프런트엔드; nginx를 통한 WebGL 프런트엔드.

실험 결과

연구 질문

RQ1작업 기반 평가가 단일 턴 QA를 넘어 LLM의 광범위한 능력을 어떻게 포착할 수 있는가?
RQ2메모리, 계획 및 도구 사용 시스템을 갖춘 모듈식 샌드박스가 LLM에 대한 재현 가능하고 확장 가능한 평가 과제를 낼 수 있는가?
RQ3시뮬레이션된 사회 환경에서 서로 다른 지원 메커니즘이 LLM 에이전트 성능에 미치는 영향은 무엇인가?
RQ4비컴퓨터 과학 분야의 연구자들이 LLM 평가 과제를 설계하기에 시각적이고 대화형 플랫폼은 얼마나 사용하기 쉬운가?

주요 결과

AgentSims는 플러그가능한 메모리, 계획 및 도구 사용 시스템을 갖춘 LLM 평가 과제 생성을 위한 개방적이고 시각적 플랫폼을 제공합니다.
이 샌드박스는 연구자들이 시뮬레이션된 사회-경제 환경에서 LLM을 테스트하고 장기 계획 및 행동 일관성을 관찰하도록 합니다.
사용자는 다양한 기술 전문성 수준의 연구자들을 수용하기 위해 두 가지 모드(User Mode와 Developer Mode)에서 작동할 수 있습니다.
에이전트, 건물 및 장비의 아키텍처적 분리는 유연한 실험 및 재현성을 지원합니다.
AgentSims는 평가 이외에도 데이터 생성 및 사회 시뮬레이션 기반 연구를 지원합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.