Skip to main content
QUICK REVIEW

[논문 리뷰] Towards Adaptive Environment Generation for Training Embodied Agents

Teresa Yeo, Dulaj Sanjaya Weerakoon|arXiv (Cornell University)|2026. 02. 06.
Multimodal Machine Learning Applications인용 수 0
한 줄 요약

이 논문은 에이전트의 궤적 분석을 사용하여 학습 환경을 적응적으로 수정하는 폐쇄 루프 프레임워크를 제안하고, 구현된 피드백 기반 커리큘럼으로 점진적으로 더 어려운 embodied navigation 작업을 가능하게 한다.

ABSTRACT

Embodied agents struggle to generalize to new environments, even when those environments share similar underlying structures to their training settings. Most current approaches to generating these training environments follow an open-loop paradigm, without considering the agent's current performance. While procedural generation methods can produce diverse scenes, diversity without feedback from the agent is inefficient. The generated environments may be trivially easy, providing limited learning signal. To address this, we present a proof-of-concept for closed-loop environment generation that adapts difficulty to the agent's current capabilities. Our system employs a controllable environment representation, extracts fine-grained performance feedback beyond binary success or failure, and implements a closed-loop adaptation mechanism that translates this feedback into environment modifications. This feedback-driven approach generates training environments that more challenging in the ways the agent needs to improve, enabling more efficient learning and better generalization to novel settings.

연구 동기 및 목표

  • 미지의 환경에서 embodied 에이전트의 일반화 향상의 필요성을 제시한다.
  • 에이전트의 성능에 따라 환경의 난이도를 조절하는 폐루프 시스템을 제안한다.
  • 구조화된 환경 표현과 세밀한 궤적 피드백을 활용하여 표적화된 커리큘럼 설계를 제시한다.
  • 분석 및 수정을 위한 LLMs를 활용한 개념 검증으로 실현 가능성을 시연한다.
  • 한계를 강조하고 평가 및 확장의 향후 방향을 제시한다.

제안 방법

  • 통제 가능한 수정을 가능하게 하도록 환경을 구조화된 장면 그래프(O, A, R)로 표현한다.
  • 에이전트 궤적으로부터 성공, 중간 문제점, 고수준 수정 제안을 추출하기 위해 분석 모델 F(예: GPT-4.1-mini)를 사용한다.
  • 분석 F의 결과를 구체적인 환경 편집으로 번역하기 위해 생성기 G(예: GPT-4.1-mini)를 사용하되 타당성과 해법 가능성을 보장한다.
  • 물체 간 충돌 없이 수정이 반영되도록 충돌 인식 배치를 구현한다.
  • 업데이트된 환경을 렌더링하고 루프를 반복하여 점진적인 커리큘럼을 생성한다.
  • 구성 델타를 생성하는 그래디언트 기반 대 모델 기반(LLM) 접근법 비교를 선택적으로 논의한다.
Figure 1: Embodied navigation performance is sensitive to object perturbations. Top-down view of agent trajectories (yellow to orange path) for an object navigation task with the fridge as the target object. In the training environment (left), the agent successfully navigates to the target, while in
Figure 1: Embodied navigation performance is sensitive to object perturbations. Top-down view of agent trajectories (yellow to orange path) for an object navigation task with the fridge as the target object. In the training environment (left), the agent successfully navigates to the target, while in

실험 결과

연구 질문

  • RQ1폐루프형의 피드백 주도 환경 생성을 통한 루프가 embodied 에이전트의 학습 효율성을 향상시킬 수 있는가?
  • RQ2세밀한 궤적 분석이 어떻게 의미 있고 현실적인 환경 수정을 안내할 수 있는가?
  • RQ3적응적 생성에서 LLM 기반 편집과 그래디언트 기반 환경 델타 예측 간의 트레이드오프는 무엇인가?
  • RQ4연속적인 편집 후 생성된 환경이 여전히 해결 가능하고 물리적으로 타당한가?

주요 결과

  • 궤적 분석을 사용하여 환경 교란을 안내하는 개념 증명 폐루프 파이프라인이 실행 가능하다.
  • 환경 수정은 무작위 교란이 아니라 더 도전적이면서도 현실적인 장면(예: 더 협소한 경로)을 만드는 데 초점을 맞춘다.
  • 충돌 인식 및 타당성 제약을 통합하여 실행 가능한 환경을 유지할 수 있다.
  • 이 방법은 적응형 환경 설계가 효율성과 일반화를 개선할 가능성을 보여주며, 다만 포괄적 평가의 향후 작업이 남아 있다.
Figure 2: Overview of the proposed adaptive environment generation framework. Starting from an original environment $e_{t}$ , an agent with policy $\pi_{t}$ is deployed to perform embodied tasks (e.g., object navigation), producing a top-down trajectory visualization $\tau^{e_{t}}$ . An analysis mod
Figure 2: Overview of the proposed adaptive environment generation framework. Starting from an original environment $e_{t}$ , an agent with policy $\pi_{t}$ is deployed to perform embodied tasks (e.g., object navigation), producing a top-down trajectory visualization $\tau^{e_{t}}$ . An analysis mod

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.