Skip to main content
QUICK REVIEW

[論文レビュー] AgentSims: An Open-Source Sandbox for Large Language Model Evaluation

Jiaju Lin, Haoran Zhao|arXiv (Cornell University)|Aug 8, 2023
Topic Modeling被引用数 13
ひとこと要約

AgentSims は、生成的エージェント、記憶/計画/ツール使用システム、そして構成可能な建物・設備を用いたタスクベースのシミュレーションを通じて、LLMs を評価する対話的でオープンソースのサンドボックスを提供します。

ABSTRACT

With ChatGPT-like large language models (LLM) prevailing in the community, how to evaluate the ability of LLMs is an open question. Existing evaluation methods suffer from following shortcomings: (1) constrained evaluation abilities, (2) vulnerable benchmarks, (3) unobjective metrics. We suggest that task-based evaluation, where LLM agents complete tasks in a simulated environment, is a one-for-all solution to solve above problems. We present AgentSims, an easy-to-use infrastructure for researchers from all disciplines to test the specific capacities they are interested in. Researchers can build their evaluation tasks by adding agents and buildings on an interactive GUI or deploy and test new support mechanisms, i.e. memory, planning and tool-use systems, by a few lines of codes. Our demo is available at https://agentsims.com .

研究の動機と目的

  • 単一ターンのベンチマークとオープンエンドのQA指標の限界を克服するために、タスクベースの評価の必要性を動機づける。
  • 多様な分野の研究者が、シミュレートされた町でLLM駆動エージェントを作成・検証できる、視覚的で拡張可能なプラットフォームを紹介する。
  • エージェントの性能に対する影響を研究するためのモジュラーなサポートシステム(記憶、計画、ツール使用)を提供する。
  • タスク設計の障壁を下げ、分野を超えた再現性のある実験を促進する。

提案手法

  • AgentSims を、生成的エージェントと建物/機材という2つの主要コンポーネントをもつ対話的なインフラストラクチャとして提示する。
  • エージェントの3つのサポート機構を説明する:計画システム、記憶システム、ツール使用システム。
  • 記憶がベクトルデータベースにどのように格納され、相互作用を跨いで一貫性を維持するためにどのように取得されるかを説明する。
  • 建物が機材を含み、相互作用が事前定義されたりモデル生成されたサポート関数によって支配される、柔軟でモジュール式のアーキテクチャを定義する。
  • アクセス性と高度なカスタマイズのために、2つのユーザー相互作用モード(ユーザーモードとデベロッパーモード)を提供する。
  • 実装の詳細を提供する: Tornado を用いた Python 3.9 バックエンド、MySQL; Unity ベースのフロントエンド; nginx 経由の WebGL フロントエンド。

実験結果

リサーチクエスチョン

  • RQ1タスクベースの評価は、単一ターンのQAを超えるLLMの幅広い能力をどのように捉えることができるか?
  • RQ2記憶、計画、ツール使用システムを備えたモジュラーなサンドボックスは、LLMs の再現性があり拡張可能な評価タスクを生み出すことができるか?
  • RQ3シミュレートされた社会環境におけるLLMエージェントの性能に対する、異なるサポート機構の影響は何か?
  • RQ4非計算機科学分野の研究者がLLM評価タスクを設計する際、視覚的で対話的なプラットフォームの使いやすさはどの程度か?

主な発見

  • AgentSims は、挿入可能な記憶、計画、ツール使用システムを備えたLLM評価タスクを作成するためのオープンで視覚的なプラットフォームを提供する。
  • このサンドボックスは、研究者がシミュレーションされた社会経済環境でLLMsをテストし、長期計画と行動の一貫性を観察することを可能にする。
  • ユーザーは、技術的専門知識の異なる研究者に対応するために、2つのモード(ユーザーモードとデベロッパーモード)で操作できる。
  • エージェント、建物、機材のアーキテクチャ的分離は、柔軟な実験と再現性を支援する。
  • AgentSims は、評価に加えてデータ生成と社会シミュレーションベースの研究をサポートします。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。