[논문 리뷰] HoME: a Household Multimodal Environment
HoME는 OpenAI Gym 호환 플랫폼으로, 시각, 음향, 의미론, 물리학, 다중 에이전트 지원을 갖춘 멀티모달, 상호작용적 3D 가정 환경을 45,622개의 SUNCG 주택에서 제공합니다.
We introduce HoME: a Household Multimodal Environment for artificial agents to learn from vision, audio, semantics, physics, and interaction with objects and other agents, all within a realistic context. HoME integrates over 45,000 diverse 3D house layouts based on the SUNCG dataset, a scale which may facilitate learning, generalization, and transfer. HoME is an open-source, OpenAI Gym-compatible platform extensible to tasks in reinforcement learning, language grounding, sound-based navigation, robotics, multi-agent learning, and more. We hope HoME better enables artificial agents to learn as humans do: in an interactive, multimodal, and richly contextualized setting.
연구 동기 및 목표
- 실제 맥락에서의 상호작용적이고 멀티모달한 경험을 통해 학습 에이전트가 지식을 습득하도록 동기를 부여한다.
- 구현체 AI의 일반화 및 전이 성능을 향상시키기 위한 확장 가능하고 разнообраз한 테스트베드를 제공한다.
- 여러 모달리티(비전, 소리, 의미론, 물리) 및 다중 에이전트 상호작용을 지원하는 OpenAI Gym 호환적이고 확장 가능한 플랫폼을 제공한다.
제안 방법
- 텍스처와 조명을 포함한 RGB 및 깊이 시각 장면을 위한 Panda3D 기반 렌더링 엔진.
- 다중 소스, 다중 마이크로폰 오디오 렌더링을 위한 레이 트레이싱 기반 EVERT를 사용하는 음향 엔진.
- 물체 색상, 범주, 재질, 크기, 위치와 의미적 분할 및 설명을 제공하는 의미 엔진.
- 충돌, 중력, 물체 조작, 에이전트-물체 상호작용을 지원하는 Bullet 기반 물리 엔진.
- 임의의 주택 초기화와 다중 에이전트 스폰을 가능하게 하는 OpenAI Gym과 통합된 Python 프레임워크.
- 강화학습, 언어 정초, 맹목적 탐색, 음향 기반 학습 등의 과제에 확장 가능하도록 설계된 확장성 있는 구조.
실험 결과
연구 질문
- RQ1대규모 멀티모달 환경이 시각, 음향, 의미론, 물리를 포함한 virtually embodied 학습을 어떻게 촉진할 수 있는가?
- RQ2스케일(45,622가구)이 학습 일반화 및 실제 세계로의 전이를 향상시키는가?
- RQ3HoME에서 효과적으로 연구될 수 있는 멀티모달 작업의 종류(지시 이행, VQA, 대화, 음향 기반 탐색, 다중 에이전트 협력)는 무엇인가?
- RQ4고충실도 음향과 상호작용 물리를 통합하는 것이 현실적 맥락에서 정책 학습과 근거화에 어떤 영향을 미치는가?
주요 결과
- HoME는 하나의 플랫폼에서 3D 시각 렌더링, 고충실도 음향, 의미 주석, 물리 및 다중 에이전트 지원을 제공한다.
- HoME는 SUNCG 기반의 45,622가구 레이아웃으로 대규모이고 다양한 학습 및 전이 환경을 가능하게 한다.
- HoME는 CPU에서 실시간보다 빠르게 작동하고 GPU 가속을 지원하며 데이터 수집 속도를 높이기 위해 여러 병렬 환경 인스턴스를 허용한다.
- 플랫폼은 OpenAI Gym 호환 가능하며 강화학습, 언어 정초, 탐색, 구체적 인체 AI 연구를 포함한 다양한 과제에 확장 가능하다.
- HoME은 다른 모달리티뿐만 아니라 고충실도 음향에 독특하게 주목하여 멀티모달 실험과 새로운 과제 설계를 촉진한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.