[논문 리뷰] Habitat 3.0: A Co-Habitat for Humans, Avatars and Robots
Habitat 3.0은 가정 환경에서 협력적인 인간–로봇 과제를 시뮬레이션하고, 인간-개입(HITL) 평가 도구와 두 가지 과제(Social Navigation 및 Social Rearrangement)와 다수의 베이스라인을 제공하는 빠르고 현실적인 시뮬레이터를 도입합니다.
We present Habitat 3.0: a simulation platform for studying collaborative human-robot tasks in home environments. Habitat 3.0 offers contributions across three dimensions: (1) Accurate humanoid simulation: addressing challenges in modeling complex deformable bodies and diversity in appearance and motion, all while ensuring high simulation speed. (2) Human-in-the-loop infrastructure: enabling real human interaction with simulated robots via mouse/keyboard or a VR interface, facilitating evaluation of robot policies with human input. (3) Collaborative tasks: studying two collaborative tasks, Social Navigation and Social Rearrangement. Social Navigation investigates a robot's ability to locate and follow humanoid avatars in unseen environments, whereas Social Rearrangement addresses collaboration between a humanoid and robot while rearranging a scene. These contributions allow us to study end-to-end learned and heuristic baselines for human-robot collaboration in-depth, as well as evaluate them with humans in the loop. Our experiments demonstrate that learned robot policies lead to efficient task completion when collaborating with unseen humanoid agents and human partners that might exhibit behaviors that the robot has not seen before. Additionally, we observe emergent behaviors during collaborative task execution, such as the robot yielding space when obstructing a humanoid agent, thereby allowing the effective completion of the task by the humanoid agent. Furthermore, our experiments using the human-in-the-loop tool demonstrate that our automated evaluation with humanoids can provide an indication of the relative ordering of different policies when evaluated with real human collaborators. Habitat 3.0 unlocks interesting new features in simulators for Embodied AI, and we hope it paves the way for a new frontier of embodied human-AI interaction capabilities.
연구 동기 및 목표
- 현실적인 가정 환경에서 협력적 인간-로봇 과제를 시뮬레이션하여 사회적 구체화 AI의 연구를 촉진하고 가능하게 한다.
- 학습 기반 에이전트에 적합한 빠르고 다양한 휴머노이드 외모 및 모션 모델을 제공한다.
- 실제 인간 협업자와 함께 로봇 정책을 평가할 수 있는 인간-인-루프(HITL) 평가 인터페이스를 제공한다.
- 표준화된 베이스라인으로 두 가지 사회적 과제(Social Navigation 및 Social Rearrangement)를 도입하여 벤치마킹을 용이하게 한다.
- 인간-로봇 협업에서 일반화 및 자발적으로 나타나는 협력적 행동의 가능성을 시연한다.
제안 방법
- 휴머노이드 외모 및 모션: 물리 엔진용 관절 골격(아티큘레이티드 스켈레톤)과 렌더링용 스킨드 메시를 기반으로 SMPL-X에 따른 이중 표현을 사용하고, 로딩 및 포즈 생성을 가속하기 위해 여러 신체 형상을 캐시한다.
- 휴머노이드 모션: 경로계획자와 모션 클립(보행 주기)을 활용해 저수준 기술(이동, 픽업/배치)을 구성하는 계층적 정책으로 장거리 행동을 달성한다.
- 인간-루프(HITL) 도구: 마우스/키보드 또는 VR을 통해 휴머노이드를 제어할 수 있는 클라이언트-서버 구조로 기록, 재생 및 다중 시점 렌더링을 평가와 데이터 수집에 제공한다.
- 로봇 및 휴머노이드 협업: 학습 기반 및 휴리스틱 베이스라인을 사용해 두 가지 과제(Social Navigation: 로봇이 안전한 거리로 휴머노이드를 찾거나 따라다니고, Social Rearrangement: 로봇과 휴머노이드가 함께 물체를 재배치)를 연구한다.
- 베이스라인 평가: 보지 못한 장면과 협업자들에서 엔드-투-엔드 RL, 휴리스틱 플래너, 인구 기반 학습 접근법을 비교하여 일반화 및 emergent 협력을 측정한다.
실험 결과
연구 질문
- RQ1가정 환경과 유사한 환경에서 체화형 AI 에이전트를 학습하기에 적합한 빠르고 다양하며 현실적인 휴머노이드 아바타를 어떻게 모델링할 수 있을까?
- RQ2실제 인간 파트너를 사용한 HITL 평가가 정책 성능 추정에 어떤 영향을 미치는가?
- RQ3학습된 정책과 휴리스틱 정책이 보지 못한 환경과 보지 못한 협업자들에 대해 Social Navigation과 Social Rearrangement에서 어떤 성능을 보이는가?
- RQ4자발적으로 나타나는 협력적 행동(예: 공간 양보, 작업 분담)이 인간-로봇 협업의 효율성과 안전성을 향상시킬 수 있는가?
주요 결과
| 방법 | S↑ | SPS↑ | F↑ | CR↓ |
|---|---|---|---|---|
| 휴리스틱 전문가 | 1.00 | 0.97 | 0.51 | 0.52 |
| 엔드-투-엔드 RL | 0.97 ±0.00 | 0.65 ±0.00 | 0.44 ±0.01 | 0.51 ±0.03 |
| - 휴머노이드 GPS | 0.76 ±0.02 | 0.34 ±0.01 | 0.29 ±0.01 | 0.48 ±0.03 |
| - 휴머노이드 탐지기 | 0.98 ±0.00 | 0.68 ±0.00 | 0.37 ±0.01 | 0.64 ±0.05 |
| - 팔 깊이 | 0.94 ±0.01 | 0.54 ±0.01 | 0.19 ±0.01 | 0.71 ±0.08 |
| - 팔 깊이 + 팔 RGB | 0.96 ±0.00 | 0.61 ±0.01 | 0.38 ±0.02 | 0.55 ±0.04 |
- 엔드-투-엔드 RL 정책은 공간 양보와 휴머노이드 추종에 맞춘 모션 조정 등의 협력 행동을 학습하여 Social Navigation에서 경쟁력 있는 성공 및 충돌 지표를 달성한다.
- 엔드-투-엔드 RL과 센서 제거 실험은 GPS, 깊이 센서, 탐지기 센서의 다양한 중요성을 보여주며 휴머노이드를 찾기 전후 입력의 역할을 강조한다.
- Social Rearrangement에서 다중 협력자와의 인구 기반 학습은 보지 않은 파트너에 대한 일반화를 개선하고 Plan-Pop 변형은 ZSC 성능이 강건함을 보여준다.
- HITL 기반 자동 평가가 실제 인간으로 테스트할 때 상대적 정책 순위와 일치함을 시사하여 확장 가능한 벤치마킹에 도움을 준다.
- Habitat 3.0은 단일 GPU에서 16개 환경에 대해 예를 들어 1191 FPS와 같은 높은 프레임레이트를 달성하면서 캐싱 및 오프라인 리그/로드 전략을 통해 시각적 충실도를 유지한다.
- 고수준 기술 선택과 저수준 기술로 구성된 모듈식 이중 계층 정책이 다양한 환경과 파트너에서 로봇과 휴머노이드 간의 효율적 조정을 지원한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.