Skip to main content
QUICK REVIEW

[논문 리뷰] Autonomous Tester Agent Benchmark

Shuyan Zhou|arXiv (Cornell University)|2023. 07. 25.
Topic Modeling인용 수 21
한 줄 요약

WebArena는 네 개 도메인과 812개의 장기 목표 작업으로 현실적이고 재현 가능한 웹 환경을 제공하여 언어 가이드 자율 에이전트를 평가합니다; GPT-4는 엔드-투-엔드 작업 성공률 14.41%를 달성했으며, 인간의 성능 78.24%에 비해 현저히 낮습니다.

ABSTRACT

Openstreetmap docker files required to self-host the WebArena benchmark, as described here:https://webarena.dev/https://arxiv.org/abs/2307.13854https://github.com/web-arena-x/webarena/tree/main/environment_docker Copyright to openstreetmaphttps://www.openstreetmap.org/copyright

연구 동기 및 목표

  • 웹에서 작동하는 자율 에이전트를 위한 매우 현실적이고 재현 가능한 웹 환경을 만든다.
  • 실제 세계의 네 가지 도메인(이커머스, 포럼, 개발, CMS)을 기능 도구와 지식 베이스와 함께 다룬다.
  • 표면 형식의 작업 매칭이 아닌 기능적 정확성을 요구하는 장기 목표 작업 벤치마크를 제공한다.
  • 다양한 작업 유형에 걸친 프로그래밍적 정확성을 통해 작업 실행 품질을 평가할 수 있게 한다.
  • 현재 능력의 상한선과 하한선을 설정하기 위해 프롬프트 전략을 사용하는기준 에이전트를 제공한다.

제안 방법

  • 네 개의 완전 실용 도메인과 유틸리티 도구를 갖춘 독립적인 Docker 기반 WebArena 환경을 구축한다.
  • 재현성을 보장하면서 진짜 세계의 대응체에서 가져온 데이터를 모방해 사이트를 채운다.
  • 고수준 자연어 의도에 기반한 812개의 벤치마크 작업을 개발하고 기능적 정확성을 위한 주석과 평가 프로그램을 제공한다.
  • 중간 상태와 최종 결과를 확인하는 보상/평가 프레임워크를 정의하여 여러 개의 유효한 실행 경로를 수용한다.
  • Chain-of-Thought 및 Unachievable hints를 포함한 프롬프트 전략을 사용하여 GPT-4, GPT-3.5, text-bison 등의 LLM 기반 베이스라인을 실험한다.
  • 관측치를 다중 탭 브라우저처럼 URL, 페이지 내용, DOM 또는 접근성 트리로 표현하고 웹 상호작용을 반영하는 클릭, 입력, 탐색 등과 같은 동작 공간을 제공한다.

실험 결과

연구 질문

  • RQ1현재의 언어 모델이 고수준 NL 의도에서 장기 목표의 웹 작업을 얼마나 잘 이해하고 실행할 수 있는가?
  • RQ2현실적이고 상호작용적인 웹 작업에서 첨단 LLM 에이전트와 인간 성능 간의 차이는 무엇인가?
  • RQ3Chain-of-Thought를 포함/제외한 프롬프트 전략과 실패 중지 힌트가 에이전트 성능에 어떤 영향을 미치는가?
  • RQ4작업이 템플릿 간에 일관된 난이도를 보이나요, 그리고 메모리나 계획 개선이 인간과의 차이를 줄일 수 있나요?
  • RQ5다양한 웹 상호작용 전반에 걸쳐 기능적 정확성을 가장 잘 포착하는 평가 프레임워크는 무엇인가요?

주요 결과

CoTUA Hint모델SRSR_ACSR_UA
text-bison-0015.054.0027.78
GPT-3.56.414.9038.89
GPT-3.58.756.4458.33
GPT-411.708.6377.78
GPT-3.55.104.908.33
GPT-3.56.166.068.33
GPT-414.4113.0244.44
-Human78.2477.30100.00
  • GPT-4 with chain-of-thought achieves 14.41% end-to-end task success on WebArena, far below human performance at 78.24%.
  • Baseline models show limited gains from explicit reasoning, with GPT-4 outperforming GPT-3.5 and other baselines but remaining far from human abilities.
  • The benchmark contains 812 tasks spanning four domains (e-commerce, forums, development, CMS) and auxiliary tools, designed to test long-horizon reasoning and multi-step interactions.
  • Functional correctness is evaluated via programmatic checks on intermediate states and final outcomes, allowing multiple valid execution paths per task.
  • Human performance remains robust, while models frequently misinterpret intents or fail to complete multi-step operations, highlighting the need for improved exploration and failure recovery capabilities.
  • The results underscore that current LLMs struggle with real-world, interactive web tasks, validating WebArena as a meaningful metric for progress.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.