QUICK REVIEW

[논문 리뷰] Safe and Scalable Web Agent Learning via Recreated Websites

Hyungjoo Chae, Jungsoo Park|arXiv (Cornell University)|2026. 03. 11.

Machine Learning and Algorithms인용 수 0

한 줄 요약

VeriEnv는 실제 웹사이트를 실행 가능한 합성 환경으로 복제하고 검증 가능한 작업 보상을 제공하여 실제 세계 상호작용 없이 안전하고 확장 가능한 자기 진화형 웹 에이전트 학습을 가능하게 한다.

ABSTRACT

Training autonomous web agents is fundamentally limited by the environments they learn from: real-world websites are unsafe to explore, hard to reset, and rarely provide verifiable feedback. We propose VeriEnv, a framework that treats language models as environment creators, automatically cloning real-world websites into fully executable, verifiable synthetic environments. By exposing controlled internal access via a Python SDK, VeriEnv enables agents to self-generate tasks with deterministic, programmatically verifiable rewards, eliminating reliance on heuristic or LLM-based judges. This design decouples agent learning from unsafe real-world interaction while enabling scalable self-evolution through environment expansion. Through experiments on web agent benchmarks, we show that agents trained with VeriEnv generalize to unseen websites, achieve site-specific mastery through self-evolving training, and benefit from scaling the number of training environments. Code and resources will be released at https://github.com/kyle8581/VeriEnv upon acceptance.

연구 동기 및 목표

실제 웹사이트와 상호작용하지 않고 자율 웹 에이전트의 안전하고 확장 가능한 학습을 촉진한다.
제어된 접근 권한을 가진 실행 가능한 환경으로 실제 사이트를 재구성하는 파이프라인을 제안한다.
결정론적 보상을 제공하기 위해 검증 가능한 작업과 판단자를 생성한다.
보지 않은 사이트에 대한 일반화 및 사이트 특유의 숙련도를 자기 진화 학습을 통해 입증한다.

제안 방법

목표 웹사이트를 합성 환경으로 복제하기 위해 코딩 에이전트를 사용한다(코드 C, 데이터베이스 D, Python SDK P).
P에서 실행 가능한 검증 프로그램을 포함하는 작업을 생성하도록 LLM에 프롬프트하여 검증 가능한 작업을 만든다.
에피소드 종료 시 환경 상태에 대해 검증 술어를 실행하여 결정론적 보상을 제공한다.
검증 가능한 보상을 사용한 자기 진화 루프를 통해 합성 환경 안에서 에이전트를 학습시킨다.
보지 않은 웹사이트에 대한 일반화를 평가하고 환경 규모 확장이 성능에 미치는 영향을 평가한다.

Figure 1 : Comparison between the traditional self-evolution paradigm and our verifiable environment framework. (a) In traditional settings, agents interact directly with real-world environments and rely on unvalidated synthetic tasks and non-verifiable, LLM-based reward signals, leading to unsafe e

실험 결과

연구 질문

RQ1검증 가능한 합성 환경에서 학습된 에이전트가 보지 않은 실제 웹사이트에 일반화할 수 있는가?
RQ2학습 환경의 수를 늘리면 웹 에이전트의 성능이 향상되는가?
RQ3복제된 환경에서 반복적인 자기 진화 학습을 통해 사이트 특유의 숙련도를 달성할 수 있는가?
RQ4검증 가능한 작업 생성과 보상이 LLM 기반 판단자 및 비검증 방식과 어떻게 비교되는가?

주요 결과

VeriEnv에서 학습된 에이전트는 WebArena 및 Mind2Web-Online 벤치마크에서 기본 모델 대비 성능이 향상된다(+6.06~+9.09 포인트, 기본 모델에 따라 다름).
VeriEnv-학습 에이전트는 교차 도메인 벤치마크에서 보지 않은 웹사이트와 과제로 일반화된다.
복제된 환경 내의 반복 훈련을 통해 사이트 특유의 숙련도가 나타나며, VeriEnv는 비검증 방법보다 더 강하고 안정적인 이득을 제공한다.
학습 환경의 수를 확장하면 일관된 향상을 보이며, 환경 중심 학습이 효과적임을 시사한다.
인간 평가에서 환경 품질이 높고(기능적 정확도 약 90%), 시각 평가도 좋으며(4.7/5), 작업 실행 가능성 약 90%, 판정 정확도 약 76%로 나타났다.

Figure 2 : Overview of VeriEnv . VeriEnv first clones a real website into a fully instrumented synthetic environment (code $C$ , database $D$ , and a Python SDK $P$ ) via coding agent, then uses task and judge generators to produce tasks at varying difficulty and verify both tasks and judges by inte

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.