QUICK REVIEW

[논문 리뷰] AI2-THOR: An Interactive 3D Environment for Visual AI

Eric Kolve, Roozbeh Mottaghi|arXiv (Cornell University)|2017. 12. 14.

Multimodal Machine Learning Applications참고 문헌 26인용 수 327

한 줄 요약

AI2-THOR는 상호작용 가능한 에이전트, 다수의 장면 데이터셋, 다양한 행동, 비전-행동 모델을 학습하고 평가하기 위한 풍부한 메타데이터를 제공하는, 대규모의 거의 사진 실사에 가까운 3D 실내 시뮬레이션 플랫폼으로, 신체를 가진 AI 연구를 가능하게 한다.

ABSTRACT

We introduce The House Of inteRactions (THOR), a framework for visual AI research, available at http://ai2thor.allenai.org. AI2-THOR consists of near photo-realistic 3D indoor scenes, where AI agents can navigate in the scenes and interact with objects to perform tasks. AI2-THOR enables research in many different domains including but not limited to deep reinforcement learning, imitation learning, learning by interaction, planning, visual question answering, unsupervised representation learning, object detection and segmentation, and learning models of cognition. The goal of AI2-THOR is to facilitate building visually intelligent models and push the research forward in this domain.

연구 동기 및 목표

현실적인 3D 환경과의 상호작용을 통해 정적 이미지를 넘어서는 시각 AI 연구를 촉진한다.
다양한 에이전트와 풍부한 행동 공간을 제공하여 본체형 AI 모델을 학습하고 평가한다.
일반화를 향상시키기 위해 대규모이고 빠르며 비용 효율적인 시뮬레이션을 실제 실험의 대리로 제공한다.

제안 방법

AI2-THOR 프레임워크를 Unity 기반의 3D 장면과 에이전트 제어를 위한 Python API로 설명한다.
장면 데이터셋(iTHOR, RoboTHOR, ProcTHOR, ArchitecTHOR)과 일반화를 위한 절차적 생성을 설명한다.
에이전트 구현체(ManipulaTHOR, StretchRE1, LoCoBot, Abstract, Drone)와 그들의 상호작용 능력을 상세히 설명한다.
탐색, 상호작용, 환경 질의, 환경 상태 변경으로 분류하는 행동 분류를 제시한다.
이미지 모달리티(RGB, Depth, Semantic/Instance Segmentation, Normals)와 객체 데이터베이스 내용(3,578 interactive objects)을 outline한다.
보상 설계, 모방 학습 및 평가 데이터셋에서 메타데이터 제공의 활용을 제시한다.

실험 결과

연구 질문

RQ1풍부하고 상호작용 가능한 3D 환경이 정적 데이터셋에 비해 구현된 embodied AI의 학습과 일반화를 얼마나 가속할 수 있는가?
RQ2장면, 에이전트, 행동, 모달리티의 어떤 조합이 시각 AI 과제의 확장 가능하고 전이 가능한 학습을 가능하게 하는가?
RQ3프로시저 생성 환경(ProcTHOR)이 실세계에 가까운 장면으로의 일반화를 향상시키는 정도는 어느 수준인가(ArchitecTHOR, RoboTHOR의 임베디드 태스크에서)?
RQ4다른 시뮬레이터에 비해 규모, 기능, 효율성 측면에서 AI2-THOR의 시뮬레이션 플랫폼으로서의 성능은 어떠한가?

주요 결과

AI2-THOR는 상태 변화, 팔 조작, 인과적 상호작용 등 광범위한 상호작용을 지원하며 수많은 장면과 객체로 규모를 확장한다.
프로시저 생성(ProcTHOR-10K)은 RoboTHOR, iTHOR, ArchitecTHOR에서 제로샷 설정으로 일반화를 개선하는 대규모 학습을 가능하게 한다.
종합적인 에이전트 생태계(ManipulaTHOR, StretchRE1, LoCoBot, Abstract, Drone)는 저수준 조작에서 탐색 및 추상적 행동에 이르는 다양한 임베딩을 지원한다.
풍부한 이미지 모달리티(RGB, depth, semantic/instance segmentation, normals)와 환경 메타데이터는 모방 학습 및 강화 학습의 학습 신호와 보상 형성을 향상시킨다.
AI2-THOR는 150편이 넘는 논문에서 사용되었으며 다른 시뮬레이터에 비해 빠르고 확장 가능한 학습을 지원하고 경쟁력 있는 성능 벤치마크를 제공한다(Appendix B는 프로파일링 및 병렬 처리에 대해 다룬다).
다양한 연구 영역이 AI2-THOR의 혜택을 받으며, 시각적 네비게이션, 음향-시각 과제, 시각-언어, 시뮬레이션-현실 간 도달, 다중 에이전트 협력, 가능성, 장면 합성, 해석 가능한 표현 등을 포함한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.