[논문 리뷰] Mind2Web: Towards a Generalist Agent for the Web
Mind2Web은 일반적 웹 에이전트를 위한 실제 웹 작업 데이터셋을 도입하고, MindAct는 후보 요소를 순위 매김하는 소형 LM과 작업 예측을 위한 LLM을 사용하는 두 단계 프레임워크로 cross-domain, cross-website, cross-task 일반화에 대한 광범위한 평가를 제시합니다.
We introduce Mind2Web, the first dataset for developing and evaluating generalist agents for the web that can follow language instructions to complete complex tasks on any website. Existing datasets for web agents either use simulated websites or only cover a limited set of websites and tasks, thus not suitable for generalist web agents. With over 2,000 open-ended tasks collected from 137 websites spanning 31 domains and crowdsourced action sequences for the tasks, Mind2Web provides three necessary ingredients for building generalist web agents: 1) diverse domains, websites, and tasks, 2) use of real-world websites instead of simulated and simplified ones, and 3) a broad spectrum of user interaction patterns. Based on Mind2Web, we conduct an initial exploration of using large language models (LLMs) for building generalist web agents. While the raw HTML of real-world websites are often too large to be fed to LLMs, we show that first filtering it with a small LM significantly improves the effectiveness and efficiency of LLMs. Our solution demonstrates a decent level of performance, even on websites or entire domains the model has never seen before, but there is still a substantial room to improve towards truly generalizable agents. We open-source our dataset, model implementation, and trained models (https://osu-nlp-group.github.io/Mind2Web) to facilitate further research on building a generalist agent for the web.
연구 동기 및 목표
- 웹 작업의 다양하고 실제적인 데이터셋을 137개의 웹사이트와 31개의 도메인에서 제공하여 일반적 웹 에이전트를 학습하고 평가한다.
- 소형 LM으로 후보를 순위 매김하고 LLM으로 행동 예측을 수행하는 MindAct의 두 단계 모델을 제안한다.
- 현실적인 웹 환경에서 도메인, 웹사이트, 작업 간의 에이전트 일반화 가능성을 조사한다.
제안 방법
- MindAct는 먼저 미세조정된 소형 LM(DeBERTa base)을 사용해 웹페이지 요소를 순위 매김하고 상위 k개의 후보 요소를 선택한다.
- 상위 k 후보를 요약된 웹페이지 스니펫으로 condense하여 LLM에 입력하고 다지선다형 QA 형식으로 행동 예측(요소 + 작업)을 수행한다.
- 학습은 왼쪽에서 오른쪽으로의 LM 목표를 가진 실제 행동 이력으로 수행하고, 추론은 후보를 None 옵션과 함께 반복적으로 그룹화하여 단일 요소와 작업으로 수렴한다.
- 평가는 분류형 요소 선택 벤치마크와 생성 기반 행동 예측을 모두 포함하며, Baseline 및 다수의 LLM 백본(Flan-T5 변형, GPT-3.5, GPT-4)과 비교한다.
- 이 방법은 후보 가지치기를 포함한 판별적(다지선다형) 프롬프트가 직접 생성이나 일반 분류보다 더 나은 성능을 보임을 보여준다.
실험 결과
연구 질문
- RQ1일반적 웹 에이전트가 실제 웹사이트에서 학습하여 언어 지시에 따라 작업을 완료할 수 있는가?
- RQ2두 단계 MindAct 프레임워크가 보지 않은 도메인, 웹사이트, 작업 유형에서 얼마나 일반화되는가?
- RQ3소형 LM으로 고Entropy HTML을 가지치기하면 실제 웹사이트에서 대형 LM의 근거 제시 및 행동 예측이 개선되는가?
주요 결과
| 모델 | 엘리먼트 정확도 | 연산 F1 | 단계 SR | SR |
|---|---|---|---|---|
| w/ Flan-T5 B | 43.6 | 76.8 | 41.0 | 4.0 |
| w/ Flan-T5 L | 53.4 | 75.7 | 50.3 | 7.1 |
| w/ Flan-T5 XL | 55.1 | 75.7 | 52.0 | 5.2 |
| GPT-3.5 | 20.3 | 56.6 | 17.4 | 0.8 |
| GPT-4 | 41.6 | 60.6 | 36.2 | 2.0 |
| w/ GPT-3.5 (Website) | 19.3 | 48.8 | 16.2 | 0.6 |
| w/ GPT-4 (Website) | 35.8 | 51.1 | 30.1 | 2.0 |
| w/ GPT-3.5 (Domain) | 21.6 | 52.8 | 18.6 | 1.0 |
| w/ GPT-4 (Domain) | 37.1 | 46.5 | 26.4 | 2.0 |
- Mind2Web은 일반적 웹 에이전트를 평가하기 위해 137개 웹사이트에서 31개 도메인에 걸친 2,000개가 넘는 작업을 제공합니다.
- 다지선다형 QA 구성을 가진 MindAct가 설정 간 최상의 단계 성공률을 달성하며, 생성 및 분류 기반 기준점보다 현저히 우수합니다.
- 교차 작업 일반화가 가장 강하게 나타나며(가장 높은 단계 성공률), 교차 웹사이트 및 교차 도메인에 비해 도메인/웹사이트의 다양성이 일반화에 상당한 어려움을 제시합니다.
- GPT-4는 더 큰 비용에도 불구하고 경쟁적인 결과를 보여주는 강력한 가능성을 보이며, GPT-3.5은 이 설정에서 요소 선택 정확도가 제한적입니다.
- 후보 생성을 위한 소형 LM(DeBERTa B) 미세조정은 설정 전반에서 Recall@50이 약 85%에 도달하여 LLM 예측기에 효과적인 후보 풀를 제공합니다.
- 전반적인 작업 성공은 설정에 따라 여전히 도전적이며, 실제 웹 상호작용에서 장기 계획 및 근거 제시의 어려움을 드러냅니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.