QUICK REVIEW

[论文解读] AgentSims: An Open-Source Sandbox for Large Language Model Evaluation

Jiaju Lin, Haoran Zhao|arXiv (Cornell University)|Aug 8, 2023

Topic Modeling被引用 13

一句话总结

AgentSims 提供一个交互式、开源的沙箱，通过基于任务的仿真与生成式代理、记忆/规划/工具使用系统，以及可配置的建筑/设备来评估大语言模型。

ABSTRACT

With ChatGPT-like large language models (LLM) prevailing in the community, how to evaluate the ability of LLMs is an open question. Existing evaluation methods suffer from following shortcomings: (1) constrained evaluation abilities, (2) vulnerable benchmarks, (3) unobjective metrics. We suggest that task-based evaluation, where LLM agents complete tasks in a simulated environment, is a one-for-all solution to solve above problems. We present AgentSims, an easy-to-use infrastructure for researchers from all disciplines to test the specific capacities they are interested in. Researchers can build their evaluation tasks by adding agents and buildings on an interactive GUI or deploy and test new support mechanisms, i.e. memory, planning and tool-use systems, by a few lines of codes. Our demo is available at https://agentsims.com .

研究动机与目标

激发对基于任务的评价的需求，以克服单轮基准测试和开放式问答度量的限制。
引入一个可视化、可扩展的平台，使来自不同领域的研究人员能够在一个模拟城镇中创建和测试由大语言模型驱动的代理。
提供模块化的支持系统（记忆、规划、工具使用），以研究它们对代理性能的影响。
降低任务设计门槛，促进跨学科的可重复实验。

提出的方法

将 AgentSims 呈现为一个具有两个主要组件的交互式基础设施：生成式代理和建筑/设备。
描述代理的三大支持机制：规划系统、记忆系统和工具使用系统。
解释记忆如何存储在向量数据库中并被检索以在交互之间保持连贯性。
定义一个灵活的模块化架构，其中建筑物包含设备，交互由预定义或模型生成的支持函数控制。
提供两种用户交互模式（用户模式和开发者模式），以实现易用性和高级定制。
提供实现细节：Python 3.9 后端，使用 Tornado、MySQL；基于 Unity 的前端；通过 nginx 的 WebGL 前端。

实验结果

研究问题

RQ1如何通过基于任务的评价捕捉超越单轮问答的广泛能力？
RQ2具有记忆、规划和工具使用系统的模块化沙箱是否能为 LLM 产生可重复和可扩展的评估任务？
RQ3不同支持机制对在模拟社会环境中LLM代理性能的影响是什么？
RQ4面向非计算机科学学科的研究人员设计 LLM 评估任务时，这一可视化、互动平台的易用性如何？

主要发现

AgentSims 提供一个开放、可视化的平台，用于创建带有可插拔记忆、规划和工具使用系统的 LLM 评估任务。
该沙箱使研究人员能够在模拟的社会经济环境中测试LLMs并观察长期规划与行为连贯性。
用户可以在两种模式（用户模式和开发者模式）下操作，以适应具有不同技术水平的研究人员。
代理、建筑和设备的架构分离支持灵活的实验和可重复性。
AgentSims 除评估外还支持数据生成和基于社会仿真的研究。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。