Skip to main content
QUICK REVIEW

[논문 리뷰] Safe and Scalable Web Agent Learning via Recreated Websites

Hyungjoo Chae, Jungsoo Park|arXiv (Cornell University)|2026. 03. 11.
Machine Learning and Algorithms인용 수 0
한 줄 요약

VeriEnv는 실제 웹사이트를 실행 가능한 합성 환경으로 복제하고 검증 가능한 작업 보상을 제공하여 실제 세계 상호작용 없이 안전하고 확장 가능한 자기 진화형 웹 에이전트 학습을 가능하게 한다.

ABSTRACT

Training autonomous web agents is fundamentally limited by the environments they learn from: real-world websites are unsafe to explore, hard to reset, and rarely provide verifiable feedback. We propose VeriEnv, a framework that treats language models as environment creators, automatically cloning real-world websites into fully executable, verifiable synthetic environments. By exposing controlled internal access via a Python SDK, VeriEnv enables agents to self-generate tasks with deterministic, programmatically verifiable rewards, eliminating reliance on heuristic or LLM-based judges. This design decouples agent learning from unsafe real-world interaction while enabling scalable self-evolution through environment expansion. Through experiments on web agent benchmarks, we show that agents trained with VeriEnv generalize to unseen websites, achieve site-specific mastery through self-evolving training, and benefit from scaling the number of training environments. Code and resources will be released at https://github.com/kyle8581/VeriEnv upon acceptance.

연구 동기 및 목표

  • 실제 웹사이트와 상호작용하지 않고 자율 웹 에이전트의 안전하고 확장 가능한 학습을 촉진한다.
  • 제어된 접근 권한을 가진 실행 가능한 환경으로 실제 사이트를 재구성하는 파이프라인을 제안한다.
  • 결정론적 보상을 제공하기 위해 검증 가능한 작업과 판단자를 생성한다.
  • 보지 않은 사이트에 대한 일반화 및 사이트 특유의 숙련도를 자기 진화 학습을 통해 입증한다.

제안 방법

  • 목표 웹사이트를 합성 환경으로 복제하기 위해 코딩 에이전트를 사용한다(코드 C, 데이터베이스 D, Python SDK P).
  • P에서 실행 가능한 검증 프로그램을 포함하는 작업을 생성하도록 LLM에 프롬프트하여 검증 가능한 작업을 만든다.
  • 에피소드 종료 시 환경 상태에 대해 검증 술어를 실행하여 결정론적 보상을 제공한다.
  • 검증 가능한 보상을 사용한 자기 진화 루프를 통해 합성 환경 안에서 에이전트를 학습시킨다.
  • 보지 않은 웹사이트에 대한 일반화를 평가하고 환경 규모 확장이 성능에 미치는 영향을 평가한다.
Figure 1 : Comparison between the traditional self-evolution paradigm and our verifiable environment framework. (a) In traditional settings, agents interact directly with real-world environments and rely on unvalidated synthetic tasks and non-verifiable, LLM-based reward signals, leading to unsafe e
Figure 1 : Comparison between the traditional self-evolution paradigm and our verifiable environment framework. (a) In traditional settings, agents interact directly with real-world environments and rely on unvalidated synthetic tasks and non-verifiable, LLM-based reward signals, leading to unsafe e

실험 결과

연구 질문

  • RQ1검증 가능한 합성 환경에서 학습된 에이전트가 보지 않은 실제 웹사이트에 일반화할 수 있는가?
  • RQ2학습 환경의 수를 늘리면 웹 에이전트의 성능이 향상되는가?
  • RQ3복제된 환경에서 반복적인 자기 진화 학습을 통해 사이트 특유의 숙련도를 달성할 수 있는가?
  • RQ4검증 가능한 작업 생성과 보상이 LLM 기반 판단자 및 비검증 방식과 어떻게 비교되는가?

주요 결과

  • VeriEnv에서 학습된 에이전트는 WebArena 및 Mind2Web-Online 벤치마크에서 기본 모델 대비 성능이 향상된다(+6.06~+9.09 포인트, 기본 모델에 따라 다름).
  • VeriEnv-학습 에이전트는 교차 도메인 벤치마크에서 보지 않은 웹사이트와 과제로 일반화된다.
  • 복제된 환경 내의 반복 훈련을 통해 사이트 특유의 숙련도가 나타나며, VeriEnv는 비검증 방법보다 더 강하고 안정적인 이득을 제공한다.
  • 학습 환경의 수를 확장하면 일관된 향상을 보이며, 환경 중심 학습이 효과적임을 시사한다.
  • 인간 평가에서 환경 품질이 높고(기능적 정확도 약 90%), 시각 평가도 좋으며(4.7/5), 작업 실행 가능성 약 90%, 판정 정확도 약 76%로 나타났다.
Figure 2 : Overview of VeriEnv . VeriEnv first clones a real website into a fully instrumented synthetic environment (code $C$ , database $D$ , and a Python SDK $P$ ) via coding agent, then uses task and judge generators to produce tasks at varying difficulty and verify both tasks and judges by inte
Figure 2 : Overview of VeriEnv . VeriEnv first clones a real website into a fully instrumented synthetic environment (code $C$ , database $D$ , and a Python SDK $P$ ) via coding agent, then uses task and judge generators to produce tasks at varying difficulty and verify both tasks and judges by inte

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.