[论文解读] Mind2Web: Towards a Generalist Agent for the Web
Mind2Web 引入一个用于通用网络代理的真实世界网络任务数据集,并提出 MindAct,一种两阶段框架,使用小型 LM 对候选元素进行排序,使用 LLM 预测动作,在跨领域、跨网站和跨任务的泛化方面进行广泛评估。
We introduce Mind2Web, the first dataset for developing and evaluating generalist agents for the web that can follow language instructions to complete complex tasks on any website. Existing datasets for web agents either use simulated websites or only cover a limited set of websites and tasks, thus not suitable for generalist web agents. With over 2,000 open-ended tasks collected from 137 websites spanning 31 domains and crowdsourced action sequences for the tasks, Mind2Web provides three necessary ingredients for building generalist web agents: 1) diverse domains, websites, and tasks, 2) use of real-world websites instead of simulated and simplified ones, and 3) a broad spectrum of user interaction patterns. Based on Mind2Web, we conduct an initial exploration of using large language models (LLMs) for building generalist web agents. While the raw HTML of real-world websites are often too large to be fed to LLMs, we show that first filtering it with a small LM significantly improves the effectiveness and efficiency of LLMs. Our solution demonstrates a decent level of performance, even on websites or entire domains the model has never seen before, but there is still a substantial room to improve towards truly generalizable agents. We open-source our dataset, model implementation, and trained models (https://osu-nlp-group.github.io/Mind2Web) to facilitate further research on building a generalist agent for the web.
研究动机与目标
- 提供一个覆盖137个网站和31个领域的多样化、真实世界的网页任务数据集,以训练和评估通用网络代理。
- 提出 MindAct,一种两阶段模型,结合用于候选排序的小型 LM 与用于动作预测的 LLM。
- 在真实网络环境中研究代理在不同领域、网站和任务上的泛化能力。
提出的方法
- MindAct 首先使用一个经过微调的小型 LM(DeBERTa base)来对网页元素进行排序,并选择前 k 个候选元素。
- 前 k 个候选被浓缩成一个网页片段并输入到 LLM,以执行多项选择题形式的动作预测(元素+操作)。
- 训练使用带有从左到右的 LM 目标的真实动作历史;推理使用对候选项的迭代分组并加入 None 选项,以收敛到单一元素和操作。
- 评估既包括分类式的元素选择基准,也包括基于生成的动作预测,与基线和多种 LLM 主干网络进行比较(Flan-T5 变体、GPT-3.5、GPT-4)。
- 该方法表明,使用带候选项裁剪的判别型(多项选择)提示比直接生成或纯分类获得更好的性能。
实验结果
研究问题
- RQ1一个通用网络代理能否从真实网站学习,使用语言指令完成任务?
- RQ2两阶段的 MindAct 框架在未见领域、网站和任务类型上的泛化能力如何?
- RQ3通过小型 LM 修剪高熵 HTML 是否能改善大规模 LM 在真实网站上的定位与动作预测?
主要发现
| 模型 | 元素准确率 | 操作 F1 | 步骤成功率 | SR |
|---|---|---|---|---|
| w/ Flan-T5 B | 43.6 | 76.8 | 41.0 | 4.0 |
| w/ Flan-T5 L | 53.4 | 75.7 | 50.3 | 7.1 |
| w/ Flan-T5 XL | 55.1 | 75.7 | 52.0 | 5.2 |
| GPT-3.5 | 20.3 | 56.6 | 17.4 | 0.8 |
| GPT-4 | 41.6 | 60.6 | 36.2 | 2.0 |
| w/ GPT-3.5 (Website) | 19.3 | 48.8 | 16.2 | 0.6 |
| w/ GPT-4 (Website) | 35.8 | 51.1 | 30.1 | 2.0 |
| w/ GPT-3.5 (Domain) | 21.6 | 52.8 | 18.6 | 1.0 |
| w/ GPT-4 (Domain) | 37.1 | 46.5 | 26.4 | 2.0 |
- Mind2Web 提供来自 137 个网站、跨 31 个域的超过 2,000 个任务,用以评估通用网络代理。
- MindAct 采用多项选择的 QA 形式,在所有设置中实现了最佳的步骤成功率,显著超越生成与分类基线。
- 跨任务的泛化最强(最高的步骤成功率),相较于跨网站和跨域,表明领域/网站的多样性带来显著的泛化挑战。
- GPT-4 展现出强潜力,在较小模型上也能达到竞争性结果,但成本更高;GPT-3.5 在本设置中显示出有限的元素选择准确性。
- 对候选生成进行微调的小型 LM(DeBERTa B)在各设置中 Recall@50 约为 85%,为 LLM 预测器提供有效的候选池。
- 总体任务成功率在各设置中仍然具有挑战性,强调真实网络交互中的长时程规划和定位困难。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。