[논문 리뷰] SceneFoundry: Generating Interactive Infinite 3D Worlds
SceneFoundry는 로봇 학습용으로 아파트 규모의 기능적으로 관절이 있는 3D 실내 환경을 생성하는 언어 가이드 확산 파이프라인을 제시하며, LLM-guided floor plans, diffusion-based asset placement, 그리고 navigability와 interactability를 위한 post-optimization을 포함한다.
The ability to automatically generate large-scale, interactive, and physically realistic 3D environments is crucial for advancing robotic learning and embodied intelligence. However, existing generative approaches often fail to capture the functional complexity of real-world interiors, particularly those containing articulated objects with movable parts essential for manipulation and navigation. This paper presents SceneFoundry, a language-guided diffusion framework that generates apartment-scale 3D worlds with functionally articulated furniture and semantically diverse layouts for robotic training. From natural language prompts, an LLM module controls floor layout generation, while diffusion-based posterior sampling efficiently populates the scene with articulated assets from large-scale 3D repositories. To ensure physical usability, SceneFoundry employs differentiable guidance functions to regulate object quantity, prevent articulation collisions, and maintain sufficient walkable space for robotic navigation. Extensive experiments demonstrate that our framework generates structurally valid, semantically coherent, and functionally interactive environments across diverse scene types and conditions, enabling scalable embodied AI research. project page: https://anc891203.github.io/SceneFoundry-Demo/
연구 동기 및 목표
- 고수준 자연어 프롬프트를 제어 가능한 아파트 규모의 3D 씬 생성으로 연결한다.
- 관절이 있는 가구 및 이동 가능한 부품을 포함시켜 기능적 실재성을 보장한다.
- 로봇 학습과 구현된 AI를 위한 탐색 가능성 및 보행 가능한 공간을 유지한다.
- 객체 수, 관절 가능성, 보행 가능 영역을 강제하기 위한 미분 가능한 사후 가이드를 제공한다.
제안 방법
- LLM 기반 매개변수 공간 가이던스가 자연어 프롬프트를 제어 가능한 레이아웃 생성을 위한 저수준 바닥 계획 매개변수로 변환한다.
- Diffusion posterior sampling이 3D 씬 전역에서 객체 매개변수를 병렬로 샘플링하여 articulated assets를 배치한다.
- 미분 가능한 가이드 함수가 생성을 제약한다: Object Quantity Control 및 Articulated Object Collision Constraint.
- Walkable Area Control의 후처리는 에이전트의 탐색 가능 공간을 보장하도록 레이아웃을 최적화한다.
- 훈련은 제약 기반 학습 목표를 포함하는 제약 도함수를 통합한다.
- 평가지표는 생성된 씬의 제어 가능성과 기능적 타당성을 평가한다.
실험 결과
연구 질문
- RQ1언어 가이드 프롬프트가 로봇 작업에 적합한 아파트 규모의 의미적으로 일관된 바닥 계획을 도출할 수 있는가?
- RQ2확산 기반 레이아웃 생성을 수행하는 동안 미분 가능한 제약이 객체 수와 관절 가능성을 얼마나 효과적으로 강제할 수 있는가?
- RQ3사후 처리의 walkable area 최적화가 시맨틱 레이아웃 품질을 해치지 않으면서 탐색 가능한 환경을 보장하는가?
- RQ4생성된 3D 실내 공간에서 제어 가능성과 기능적 실재감을 가장 잘 포착하는 지표는 무엇인가?
주요 결과
- 이 프레임워크는 구조적으로 유효하고 시맨틱하게 일관되며 기능적으로 상호작용 가능한 아파트 규모의 씬을 달성한다.
- Object Quantity Control은 대상 수 5–16에 대해 SR ~0.95–0.97의 높은 성공률로 목표 객체 수를 신뢰성 있게 강제한다.
- Articulated Object Collision Constraint는 기능적 충돌을 줄이고 기본값 대비 물체 도달성을 향상시킨다.
- Walkable Area Control은 보행 가능 영역 임계값 전반에 걸쳐 탐색 가능성을 크게 향상시킨다.
- LLM-guided layout generation은 ground-truth 레이아웃과의 노드, 제약, 에지 유사도가 높다.
- 기준선 ATISS, DiffuScene, PhyScene과 비교할 때 SceneFoundry는 지각 품질이 경쟁적이며 기능적 타당성이 향상된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.