QUICK REVIEW

[论文解读] Autonomous Tester Agent Benchmark

Shuyan Zhou|arXiv (Cornell University)|Jul 25, 2023

Topic Modeling被引用 21

一句话总结

WebArena 提供一个真实、可重复的网页环境，包含四个领域和812个长时任务，用于评估语言引导的自主代理；GPT-4 实现端到端任务成功率为 14.41%，远低于人类水平 78.24%。

ABSTRACT

Openstreetmap docker files required to self-host the WebArena benchmark, as described here:https://webarena.dev/https://arxiv.org/abs/2307.13854https://github.com/web-arena-x/webarena/tree/main/environment_docker Copyright to openstreetmaphttps://www.openstreetmap.org/copyright

研究动机与目标

创建一个高度真实且可重复的网页环境，供在网络上运行的自主代理使用。
覆盖四个真实世界领域（电子商务、论坛、开发、内容管理系统），提供功能工具和知识库。
提供一套长时间任务的基准，用以评估功能正确性，而非表面动作匹配。
通过对多种任务类型的程序正确性进行评估，来衡量任务执行质量。
提供使用提示策略的基线代理，以建立当前能力的上/下界。

提出的方法

构建一个独立的、基于 Docker 的 WebArena 环境，包含四个完全可用的网站域及工具。
使用来自现实世界对应物的数据填充站点，以保留真实性同时确保可重复性。
开发812个基于高层次自然语言意图的基准任务，附带注释和评估程序以实现功能正确性。
定义一个奖励/评估框架，检查中间状态和最终结果，容纳多种有效执行路径。
尝试多种基于大语言模型的基线（如 GPT-4、GPT-3.5、text-bison），使用链式推理等提示策略以及不可达提示等。
使用多标签浏览器样式的内容表示观测（URL、页面内容、DOM 或可访问性树），并提供与网页交互等同的动作空间（点击、输入、导航等）。

实验结果

研究问题

RQ1当前语言模型在从高层次自然语言意图理解并执行长时程网页任务方面的能力如何？
RQ2在现实世界、交互式网页任务中，最先进的 LLM 代理与人类表现之间的差距有多大？
RQ3提示策略（有/无链式推理）以及失败停止提示如何影响代理性能？
RQ4任务在不同模板中是否呈现一致的难度，记忆或规划的改进是否能够缩小与人类的差距？
RQ5哪些评估框架能够最好地捕捉跨多样化网页交互的功能正确性？

主要发现

CoT	UA Hint	Model	SR	SR_AC	SR_UA
✓	✓	text-bison-001	5.05	4.00	27.78
✗	✓	GPT-3.5	6.41	4.90	38.89
✓	✓	GPT-3.5	8.75	6.44	58.33
✓	✓	GPT-4	11.70	8.63	77.78
✗	✗	GPT-3.5	5.10	4.90	8.33
✓	✗	GPT-3.5	6.16	6.06	8.33
✓	✗	GPT-4	14.41	13.02	44.44
-	✓	Human	78.24	77.30	100.00

GPT-4 结合链式推理，在 WebArena 的端到端任务成功率为 14.41%，远低于人类表现的 78.24%。
基线模型在显式推理上的提升有限，GPT-4 胜过 GPT-3.5 及其他基线，但仍远低于人类能力。
该基准包含 812 个任务，跨越四个领域（电子商务、论坛、开发、CMS）及辅助工具，旨在测试长时程推理与多步骤交互。
通过对中间状态和最终结果进行程序化检查来评估功能正确性，允许每个任务有多条有效执行路径。
人类表现仍然稳健，而模型经常误解意图或未能完成多步骤操作，凸显需要改进的探索与故障恢复能力。
结果强调当前的 LLM 在现实世界的交互式网页任务上存在困难，验证 WebArena 作为衡量进展的有意义指标。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。