[논문 리뷰] A Real-World WebAgent with Planning, Long Context Understanding, and Program Synthesis
WebAgent는 HTML-전문 계획/요약 모델(HTML-T5)과 실증된 코드 생성 모델(Flan-U-PaLM)을 결합하여 Python Selenium 프로그래밍을 통해 실제 웹사이트를 자동화하고, 베이스라인보다 50% 이상 높은 성공률과 Mind2Web 및 MiniWoB++에서 최첨단 성능을 달성합니다.
Pre-trained large language models (LLMs) have recently achieved better generalization and sample efficiency in autonomous web automation. However, the performance on real-world websites has still suffered from (1) open domainness, (2) limited context length, and (3) lack of inductive bias on HTML. We introduce WebAgent, an LLM-driven agent that learns from self-experience to complete tasks on real websites following natural language instructions. WebAgent plans ahead by decomposing instructions into canonical sub-instructions, summarizes long HTML documents into task-relevant snippets, and acts on websites via Python programs generated from those. We design WebAgent with Flan-U-PaLM, for grounded code generation, and HTML-T5, new pre-trained LLMs for long HTML documents using local and global attention mechanisms and a mixture of long-span denoising objectives, for planning and summarization. We empirically demonstrate that our modular recipe improves the success on real websites by over 50%, and that HTML-T5 is the best model to solve various HTML understanding tasks; achieving 18.7% higher success rate than the prior method on MiniWoB web automation benchmark, and SoTA performance on Mind2Web, an offline task planning evaluation.
연구 동기 및 목표
- 자유로운 행동과 긴 HTML 문서가 있는 실제 웹사이트에서 작동하는 자율 웹 자동화를 촉진한다.
- 계획, HTML 요약, 및 프로그램 합성을 self-supervision 하에 다룰 수 있는 도메인 전문 언어 모델을 개발한다.
- 브라우저 제어를 위한 실행 가능 Python 스크립트로 언어 계획을 grounding 하여 End-to-End 작업 완수를 가능하게 한다.
- 실제 웹사이트와 표준 벤치마크에서 이전 베이스라인보다 일반화 및 robustness를 향상시킨다.
제안 방법
- 긴 HTML 문서에 대해 로컬 및 글로벌 어텐션을 갖춘 인코더-디코더 모델인 HTML-T5를 도입한다.
- 대규모 HTML 코퍼스(CommonCrawl)에서 긴 스팬 디노이징 목표를 혼합하여 HTML-T5를 프리트레인하고, 자기 경험 감독(self-experience supervision)으로 미세조정한다.
- 실증된 코드 생성기로서 Flan-U-PaLM을 사용하여 하위 명령과 HTML 조각을 실행 가능한 Python Selenium 스크립트로 변환한다.
- 실제 웹사이트 상호작용에서 demonstrations를 수집하고 HTML-T5를 계획 및 요약에 대해 미세조정하기 위해 자기 경험 감독을 사용한다.
- 오픈 엔드 액션과 긴 컨텍스트의 HTML에 대응하기 위해 계획(Html-T5)과 프로그램 합성(Flan-U-PaLM)을 모듈식 WebAgent 아키텍처로 결합한다.
- 실제 웹사이트(부동산, 소셜 미디어, 지도)와 벤치마크 HTML 작업(MiniWoB++, Mind2Web)을 평가한다.

실험 결과
연구 질문
- RQ1모듈식으로 구성된 전문 엔진 언어 모델의 조합이 단일 LLM 접근 방식과 비교해 실제 웹 자동화를 어떻게 개선하는가?
- RQ2HTML 중심의 계획 및 긴 HTML 요약이 긴 컨텍스트 문서를 가진 실제 웹사이트에서 견고한 작업 grounding을 가능하게 하는가?
- RQ3자기 경험 감독이 계획 정확도 및 전체 작업 성공에 미치는 영향은 무엇인가?
- RQ4HTML-T5가 표준 HTML 기반 벤치마크(MiniWoB++, Mind2Web)에서 이전 방법에 비해 어떤 성능을 보이는가?
주요 결과
- WebAgent은 베이스라인과 비교하여 실제 웹 자동화 성공률을 50% 이상 증가시킨다.
- HTML-T5는 MiniWoB++에서 기존 언어 모델 에이전트보다 18.7% 앞서고 Mind2Web에서 최첨단 결과를 달성했다.
- HTML-T5는 자기 경험 감독으로 더 나은 계획 및 HTML 요약을 가능하게 하여 전반적인 작업 성공률을 높인다.
- Mind2Web 오프라인 행동 예측 결과에서 XL 변형의 HTML-T5가 작업/웹사이트/도메인 일반화 전반에서 SoTA를 달성한다.
- 실세계 평가에서 최고의 결합 계획 + 요약 모듈(WebAgent)이 오픈 루프 계획 및 정규식 기반 요약보다 우수함을 보여준다.
- 다수의 ablation 연구는 적응형 하위 지시문 계획과 HTML-인식 요약이 성공에 결정적임을 시사한다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.