[논문 리뷰] ObjectFolder: A Dataset of Objects with Implicit Visual, Auditory, and Tactile Representations
ObjectFolder는 시각, 청각, 촉각 감각 데이터를 종합적으로 모델링하는 암묵적 신경망 표현을 통해 인코딩된 100개의 3D 객체로 구성된 새로운 데이터셋을 소개한다. 고정밀도의 쿼리 기반 다감각 신호 시뮬레이션을 가능하게 함으로써, 개체 인식, 교차 감각 검색, 3D 재구성, 로봇 손에 들기 등의 벤치마크 작업을 지원하며, 결과적으로 시각과 청각을 조합할 경우 3D 재구성 정확도가 향상되고 촉각 데이터를 활용할 경우 더 뛰어난 손에 들기 예측 성능을 보여준다.
Multisensory object-centric perception, reasoning, and interaction have been a key research topic in recent years. However, the progress in these directions is limited by the small set of objects available -- synthetic objects are not realistic enough and are mostly centered around geometry, while real object datasets such as YCB are often practically challenging and unstable to acquire due to international shipping, inventory, and financial cost. We present ObjectFolder, a dataset of 100 virtualized objects that addresses both challenges with two key innovations. First, ObjectFolder encodes the visual, auditory, and tactile sensory data for all objects, enabling a number of multisensory object recognition tasks, beyond existing datasets that focus purely on object geometry. Second, ObjectFolder employs a uniform, object-centric, and implicit representation for each object's visual textures, acoustic simulations, and tactile readings, making the dataset flexible to use and easy to share. We demonstrate the usefulness of our dataset as a testbed for multisensory perception and control by evaluating it on a variety of benchmark tasks, including instance recognition, cross-sensory retrieval, 3D reconstruction, and robotic grasping.
연구 동기 및 목표
- 로봇공학 및 인공지능 연구를 위해 시각, 청각, 촉각을 지원하는 고품질의 다감각 3D 객체 데이터셋이 부족한 문제를 해결하기 위해.
- 기존 데이터셋의 한계—예를 들어 현실감이 떨어지는 합성 객체 또는 고비용·불안정한 실제 세계 데이터셋—을 극복하기 위해.
- 다감각 데이터의 민첩하고 확장 가능하며 공유 가능한 시뮬레이션을 가능하게 하는 통합적이고 객체 중심의 암묵적 표현 프레임워크를 개발하기 위해.
- 로봇 가상 환경과 호환되는 공개 벤치마크 데이터셋을 구축하여 다감각 인식 및 제어 분야의 연구를 가속화하기 위해.
- 3D 재구성, 교차 모odal 검색, 로봇 손에 들기 등 다양한 작업에서 데이터셋의 유용성을 입증하기 위해.
제안 방법
- 각 객체는 시각적 외관을 위한 VisionNet, 영향 소리 시뮬레이션을 위한 AudioNet, 촉각 감지 기능을 위한 TouchNet을 갖춘 딥 네ural 네트워크를 사용하여 Object File 형식으로 표현된다.
- 시각 데이터는 다양한 카메라 자세, 조명 조건, 객체 회전 상태에서 암묵적 표현을 쿼리하여 현실적인 이미지를 생성함으로써 생성된다.
- 청각 데이터는 물체의 형태, 크기, 재질을 기반으로 모드 분석을 수행하여 진동 모드를 계산하고 영향 소리를 시뮬레이션함으로써 합성된다.
- 촉각 데이터는 DIGIT—비전 기반 촉각 센서—를 사용하여 표면 점을 접촉 위치로 쿼리하여 RGB 촉각 이미지를 생성함으로써 시뮬레이션된다.
- 좌표 조건 기반 특징 맵과 조건부 배치 정규화를 사용하여 암묵적 표현을 훈련시켜 점유 확률과 감각 출력을 예측한다.
- 각 객체의 단일 학습된 표현에서 실시간으로 시각, 청각, 촉각 신호를 쿼리할 수 있도록 함으로써, 종단 간 학습 및 추론을 지원한다.
실험 결과
연구 질문
- RQ1암묵적 신경망 표현이 통합적이고 확장 가능한 형식으로 3D 객체의 다감각 데이터(시각, 청각, 촉각)를 효과적으로 인코딩하고 시뮬레이션할 수 있는가?
- RQ2단일 모odal 기반 베이스라인 대비 시각과 청각 신호를 조합할 경우 3D 형태 재구성에 어떤 영향을 미치는가?
- RQ3시각 전용 또는 병합 접근 방식 대비 촉각 데이터만으로도 로봇 조작 작업에서 손에 들기 안정성 예측 성능을 얼마나 향상시킬 수 있는가?
- RQ4이 데이터셋은 시뮬레이션 환경에서 실제 이미지 및 로봇 제어 정책에 얼마나 잘 일반화되는가?
- RQ5암묵적 표현 프레임워크가 고정밀도로 교차 감각 검색 및 3D 재구성과 같은 다양한 벤치마크 작업을 지원할 수 있는가?
주요 결과
- 이미지와 음성 입력을 모두 사용한 3D 재구성(Image+Audio2Mesh)은 IoU 0.8906을 달성하여 단일 모달 기반 베이스라인을 능가했으며, 음향 공간 정보의 가치를 입증했다.
- ObjectFolder에서 훈련된 Image2Mesh 모델은 실제 이미지로의 일반화가 상당히 잘 이루어졌으며, 촉각 기반 로봇 손에 들기 작업에서 성공률 75.5%를 기록했고, 무작위 정책(53.0%)보다 뚜렷이 뛰어났다.
- 촉각 데이터만을 사용한 손에 들기 안정성 예측은 시각 기반 모델 대비 훨씬 적은 학습 샘플로도 높은 정확도에 도달했으며, 이는 촉각 데이터의 학습 효율성을 시사한다.
- 시각과 촉각 신호의 조합이 가장 높은 손에 들기 예측 정확도를 달성했으며, 이는 두 모odal 간 상보성의 중요성을 보여준다.
- Meta-World 환경에서 컵, Bow, 주사위 3개의 물체를 사용한 물체 조작 작업에서 100%의 성공률를 기록하여, 데이터셋의 실용적 유용성을 입증했다.
- 암묵적 신경망 표현 프레임워크는 모든 100개의 객체에 대해 효율적이고 고정밀도의 다감각 데이터 시뮬레이션을 가능하게 하였으며, 일관된 성능을 유지하면서 다양한 후행 작업을 지원했다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.