QUICK REVIEW

[논문 리뷰] Affordance-Graphed Task Worlds: Self-Evolving Task Generation for Scalable Embodied Learning

Xiang Liu, Sen Cui|arXiv (Cornell University)|2026. 02. 12.

Reinforcement Learning in Robotics인용 수 0

한 줄 요약

AGT-World는 실제 세계 관찰로부터 상호작용 시뮬레이션 환경을 자율적으로 구성하고, 그래프상에서 긴 시간의 작업을 원자 프리미티브로 분해하며, VLM 피드백으로 자기 진화를 통해 정책을 개선하여 102개의 자율 씬-태스크 쌍에서 성공률 71.6%를 달성한다.

ABSTRACT

Training robotic policies directly in the real world is expensive and unscalable. Although generative simulation enables large-scale data synthesis, current approaches often fail to generate logically coherent long-horizon tasks and struggle with dynamic physical uncertainties due to open-loop execution. To address these challenges, we propose Affordance-Graphed Task Worlds (AGT-World), a unified framework that autonomously constructs interactive simulated environments and corresponding robot task policies based on real-world observations. Unlike methods relying on random proposals or static replication, AGT-World formalizes the task space as a structured graph, enabling the precise, hierarchical decomposition of complex goals into theoretically grounded atomic primitives. Furthermore, we introduce a Self-Evolution mechanism with hybrid feedback to autonomously refine policies, combining Vision-Language Model reasoning and geometric verification. Extensive experiments demonstrate that our method significantly outperforms in success rates and generalization, achieving a self-improving cycle of proposal, execution, and correction for scalable robot learning.

연구 동기 및 목표

실세계의 어포던스와 레이아웃을 보존하는 상호작용 장면을 재구성해 의미 인식과 물리적 시뮬레이션을 연결한다.
태스크 생성을 Affordance-Graphed Task World (AGT-World) 위의 그래프 기반 경로 계획 문제로 형식화한다.
비전-언어 모델 추론과 기하학적 검증을 활용해 태스크 정책을 정제하는 폐쇄 루프 Self-Evolution 메커니즘을 도입한다.
복잡한 작업에 걸친 대규모 자율 씬-태스크 생성 및 평가를 통해 확장성과 일반화를 입증한다.
실험적 성공률 향상을 보여주고 긴 시간 지평의 태스크 계획 및 정책 정제에 대한 통찰을 제공한다.

제안 방법

작업 공간을 구조화된 방향 그래프 G = (V, E)로 표현하되 V = O × A × N+이며, 여기서 O는 조작 가능한 물체, A는 원자적 행동, N+는 시간 차원이다.
물리 엔진 시뮬레이터(OmniGibson)에서 매칭된 자산을 사용해 단일 RGB 이미지로부터 의미론적 어포던스와 물체 상태를 보존하는 시뮬레이션된 장면 S0를 재구성한다.
VLM 기반 계획 단계로 복잡한 작업을 단순 작업으로 분해하여 하위 작업 설명과 해당 동작 흐름 π(Tk)를 산출한다.
Ti의 종료 상태를 Ti+1의 초기 상태에 연결하는 동작 전달 간선 ek를 사용하여 작업 간 전이를 모델링하고 경계 일관성 Sinit(k+1) ≈ Sgoal(k)+를 보장한다.
각 하위 작업에 대해 다중 시각에서 시각적 피드백을 분석하여 하이브리드 VLM 기반 피드백 메커니즘(m, X)을 사용해 동작 흐름을 비판적으로 검토하고 반복적으로 정제하는 Self-Evolution 루프를 적용한다.

Figure 1: An introduction of our method. A. Video generation models often produce physically implausible behaviors. We instead employ a physics simulation engine to reconstruct semantic and global-state preserving simulated scenes from real-world images at low cost. B. Randomly generated scenes are

실험 결과

연구 질문

RQ1긴 시간의 로봇 작업을 의미적 어포던스와 물리적 실행 가능성을 보존하면서 실행 가능한 원자적 행동으로 어떻게 분해할 수 있는가?
RQ2그래프 기반의 태스크 월드가 실제 관찰로부터 시뮬레이션된 장면으로의 신뢰 가능한 경로 계획 및 구성적 도달 가능성을 가능하게 하는가?
RQ3비전-언어 피드백에 의해 이끄는 자기 진화 루프가 시뮬레이션에서의 자율 작업 수행에 대한 성공률과 일반화를 개선하는가?
RQ4시각 피드백, 시간 맥락, 그리고 작업 간 전이가 생성된 작업과 정책의 신뢰성에 미치는 영향은 무엇인가?

주요 결과

작업 범주	카운트	성공	SR (%)
Articulated Object (Open/Close)	36	24	66.7
Rigid Object (Pick up)	66	49	74.2
Total	102	73	71.6

본 프레임워크는 102개의 자율적으로 생성된 씬-태스크 쌍에서 전체 성공률 71.6%를 달성한다.
간단한 프리미티브는 과제 전체에서 높은 성공률을 달성하는 반면, 긴 시간 지향 및 탐색 중심의 하위 작업은 자기 진화를 통해 오류 수정에 이점을 얻는다.
VLM 가이드의 태스크 확장은 사용자의 의도에 대한 높은 의미적 충실도를 제공하며, 설계된 태스크에서 SBERT 유사도 0.376과 Self-BLEU 0.860을 보인다.
다중 시각 입력은 계획 신뢰성을 향상시키고, 작은 시간 맥락 창(p1 = 1)은 성능과 추론 비용의 균형을 이룬다.
네 가지 대표적인 긴 시간의 작업은 여러 프리미티브를 복잡한 목표로 구성하는 방법을 보여준다(예: 유리에 담긴 것을 냉장고로 운반).
본 연구는 제시된 완전성 및 연결성 가정을 전제할 때 계층적 분해를 통해 전역 도달 가능성이 달성될 수 있다는 이론적 제안을 제공한다.

Figure 2: Affordance-Graphed Task Worlds. For any complex long-horizon task, they are decomposed into multiple simple tasks, connected via inter-task edges that bridge different object slices or reset temporal states.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.