QUICK REVIEW

[논문 리뷰] Autonomous Tester Agent Benchmark

Shuyan Zhou|arXiv (Cornell University)|2023. 07. 25.

Topic Modeling인용 수 21

한 줄 요약

WebArena는 네 개 도메인과 812개의 장기 목표 작업으로 현실적이고 재현 가능한 웹 환경을 제공하여 언어 가이드 자율 에이전트를 평가합니다; GPT-4는 엔드-투-엔드 작업 성공률 14.41%를 달성했으며, 인간의 성능 78.24%에 비해 현저히 낮습니다.

ABSTRACT

Openstreetmap docker files required to self-host the WebArena benchmark, as described here:https://webarena.dev/https://arxiv.org/abs/2307.13854https://github.com/web-arena-x/webarena/tree/main/environment_docker Copyright to openstreetmaphttps://www.openstreetmap.org/copyright

연구 동기 및 목표

웹에서 작동하는 자율 에이전트를 위한 매우 현실적이고 재현 가능한 웹 환경을 만든다.
실제 세계의 네 가지 도메인(이커머스, 포럼, 개발, CMS)을 기능 도구와 지식 베이스와 함께 다룬다.
표면 형식의 작업 매칭이 아닌 기능적 정확성을 요구하는 장기 목표 작업 벤치마크를 제공한다.
다양한 작업 유형에 걸친 프로그래밍적 정확성을 통해 작업 실행 품질을 평가할 수 있게 한다.
현재 능력의 상한선과 하한선을 설정하기 위해 프롬프트 전략을 사용하는기준 에이전트를 제공한다.

제안 방법

네 개의 완전 실용 도메인과 유틸리티 도구를 갖춘 독립적인 Docker 기반 WebArena 환경을 구축한다.
재현성을 보장하면서 진짜 세계의 대응체에서 가져온 데이터를 모방해 사이트를 채운다.
고수준 자연어 의도에 기반한 812개의 벤치마크 작업을 개발하고 기능적 정확성을 위한 주석과 평가 프로그램을 제공한다.
중간 상태와 최종 결과를 확인하는 보상/평가 프레임워크를 정의하여 여러 개의 유효한 실행 경로를 수용한다.
Chain-of-Thought 및 Unachievable hints를 포함한 프롬프트 전략을 사용하여 GPT-4, GPT-3.5, text-bison 등의 LLM 기반 베이스라인을 실험한다.
관측치를 다중 탭 브라우저처럼 URL, 페이지 내용, DOM 또는 접근성 트리로 표현하고 웹 상호작용을 반영하는 클릭, 입력, 탐색 등과 같은 동작 공간을 제공한다.

실험 결과

연구 질문

RQ1현재의 언어 모델이 고수준 NL 의도에서 장기 목표의 웹 작업을 얼마나 잘 이해하고 실행할 수 있는가?
RQ2현실적이고 상호작용적인 웹 작업에서 첨단 LLM 에이전트와 인간 성능 간의 차이는 무엇인가?
RQ3Chain-of-Thought를 포함/제외한 프롬프트 전략과 실패 중지 힌트가 에이전트 성능에 어떤 영향을 미치는가?
RQ4작업이 템플릿 간에 일관된 난이도를 보이나요, 그리고 메모리나 계획 개선이 인간과의 차이를 줄일 수 있나요?
RQ5다양한 웹 상호작용 전반에 걸쳐 기능적 정확성을 가장 잘 포착하는 평가 프레임워크는 무엇인가요?

주요 결과

CoT	UA Hint	모델	SR	SR_AC	SR_UA
✓	✓	text-bison-001	5.05	4.00	27.78
✗	✓	GPT-3.5	6.41	4.90	38.89
✓	✓	GPT-3.5	8.75	6.44	58.33
✓	✓	GPT-4	11.70	8.63	77.78
✗	✗	GPT-3.5	5.10	4.90	8.33
✓	✗	GPT-3.5	6.16	6.06	8.33
✓	✗	GPT-4	14.41	13.02	44.44
-	✓	Human	78.24	77.30	100.00

GPT-4 with chain-of-thought achieves 14.41% end-to-end task success on WebArena, far below human performance at 78.24%.
Baseline models show limited gains from explicit reasoning, with GPT-4 outperforming GPT-3.5 and other baselines but remaining far from human abilities.
The benchmark contains 812 tasks spanning four domains (e-commerce, forums, development, CMS) and auxiliary tools, designed to test long-horizon reasoning and multi-step interactions.
Functional correctness is evaluated via programmatic checks on intermediate states and final outcomes, allowing multiple valid execution paths per task.
Human performance remains robust, while models frequently misinterpret intents or fail to complete multi-step operations, highlighting the need for improved exploration and failure recovery capabilities.
The results underscore that current LLMs struggle with real-world, interactive web tasks, validating WebArena as a meaningful metric for progress.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.