[논문 리뷰] ProcTHOR: Large-Scale Embodied AI Using Procedural Generation
ProcTHOR 절차적으로 대규모의 상호작용 가능하고 물리 엔진이 적용된 주택을 Embodied AI를 위해 생성한다; 10k 장면에서의 사전 학습은 여러 벤치마크에서 강력한 0-shot 전이와 함께 최첨단 결과를 보여준다.
Massive datasets and high-capacity models have driven many recent advancements in computer vision and natural language understanding. This work presents a platform to enable similar success stories in Embodied AI. We propose ProcTHOR, a framework for procedural generation of Embodied AI environments. ProcTHOR enables us to sample arbitrarily large datasets of diverse, interactive, customizable, and performant virtual environments to train and evaluate embodied agents across navigation, interaction, and manipulation tasks. We demonstrate the power and potential of ProcTHOR via a sample of 10,000 generated houses and a simple neural model. Models trained using only RGB images on ProcTHOR, with no explicit mapping and no human task supervision produce state-of-the-art results across 6 embodied AI benchmarks for navigation, rearrangement, and arm manipulation, including the presently running Habitat 2022, AI2-THOR Rearrangement 2022, and RoboTHOR challenges. We also demonstrate strong 0-shot results on these benchmarks, via pre-training on ProcTHOR with no fine-tuning on the downstream benchmark, often beating previous state-of-the-art systems that access the downstream training data.
연구 동기 및 목표
- 대규모이고 다양한 상호작용 환경으로 Embodied AI의 확장을 촉진한다.
- 다양하고 물리적으로 그럴듯한 평면도와 자산의 자동 생성을 가능하게 한다.
- 조명과 재질을 구성 가능하게 하여 완전히 상호작용 가능한 장면을 제공하고 견고한 학습을 가능하게 한다.
- 대규모 ProcTHOR 데이터로 간단한 RGB 기반 모델이 SoTA를 달성할 수 있음을 보여준다.
- ProcTHOR 프레임워크를 오픈 소스로 공개하여 Embodied AI 연구를 진전시킨다.
제안 방법
- 실내 공간 구성으로부터 완전히 상호작용 가능하고 물리 엔진이 적용된 주택을 절차적으로 생성한다.
- 다양한 배치를 위한 1633개의 자산을 108개 범주와 18개 시맨틱 자산 그룹에 걸쳐 평면도에 배치한다.
- 다양한 외관과 시간대를 시뮬레이션하기 위해 재료와 조명 무작위화를 적용한다.
- 항목의 상태와 조작을 가능하게 하여 내비게이션, 상호작용 및 조작 작업을 지원한다.
- 간단한 CNN+GRU 아키텍처를 사용하고(일부 작업에는 CLIP 기반 버전 포함) AllenAct 프레임워크로 학습한다.
- 여섯 가지 Embodied AI 벤치마크에서 zero-shot 및 미세 조정 성능을 평가한다.]
실험 결과
연구 질문
- RQ1ProcTHOR의 대규모 절차적 환경이 Embodied AI 에이전트의 일반화 능력을 향상시킬 수 있는가?
- RQ2ProcTHOR에서 학습된 RGB-전용 모델이 zero-shot 및 미세 조정 후 하류 벤치마크로 경쟁력 있게 전이되는가?
- RQ3학습 주택의 수를 늘리는 것이 내비게이션 및 조작 작업의 성능에 어떤 영향을 미치는가?
- RQ4절차적 다양성(평면도, 자산, 재료, 조명)이 벤치마크 점수에 어떤 영향을 미치는가?
주요 결과
- ProcTHOR는 내비게이션 및 조작에 대해 여섯 가지 Embodied AI 벤치마크에서 최첨단 결과를 달성한다.
- zero-shot 전이에서 ProcTHOR에서만 학습된 모델이 여러 벤치마크에서 이전 SoTA를 능가한다.
- 하류 미세조정과 함께 ProcTHOR 기반 모델은 Habitat 2022 ObjectNav, AI2-THOR Rearrangement, RoboTHOR ObjectNav에서 최고 순위에 도달한다.
- ArchitecTHOR와 ProcTHOR는 다양한 작업에서 강력한 0-shot 및 미세조정 성능을 보여준다.
- 소거실험은 10에서 100, 1K, 10K 장면으로 규모를 확장하는 이점을 보여준다.
- ProcTHOR는 대규모 데이터셋과 수백만 단계의 학습과 호환되는 빠른 렌더링을 가능하게 한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.