QUICK REVIEW

[논문 리뷰] SceneNet RGB-D: 5M Photorealistic Images of Synthetic Indoor Trajectories with Ground Truth

John McCormac, Ankur Handa|ArXiv.org|2016. 12. 15.

Advanced Vision and Imaging참고 문헌 18인용 수 91

한 줄 요약

SceneNet RGB-D는 15,000개의 합성 실내 경로에서 유저가 생성한 500만 장의 포토리얼리틱한 RGB-D 이미지를 포함한 대규모 합성 데이터셋을 제공하며, 의미 분할, 인스턴스 분할, 광학 흐름, 깊이 추정, 카메라 자세, 3D 재구성에 대한 픽셀 단위 정확도의 지도 학습 지도를 제공한다. 이 데이터셋은 물리 기반 시뮬레이션을 통한 물체 배치, 랜덤 조명, 텍스처가 적용된 레이아웃 및 레이트레이싱 렌더링 파이프라인을 통해 운동 흐림 효과가 포함된 카메라 경로를 생성하여, 데이터 요구량이 많은 비전 모델의 고성능 사전 훈련을 가능하게 한다.

ABSTRACT

We introduce SceneNet RGB-D, expanding the previous work of SceneNet to enable large scale photorealistic rendering of indoor scene trajectories. It provides pixel-perfect ground truth for scene understanding problems such as semantic segmentation, instance segmentation, and object detection, and also for geometric computer vision problems such as optical flow, depth estimation, camera pose estimation, and 3D reconstruction. Random sampling permits virtually unlimited scene configurations, and here we provide a set of 5M rendered RGB-D images from over 15K trajectories in synthetic layouts with random but physically simulated object poses. Each layout also has random lighting, camera trajectories, and textures. The scale of this dataset is well suited for pre-training data-driven computer vision techniques from scratch with RGB-D inputs, which previously has been limited by relatively small labelled datasets in NYUv2 and SUN RGB-D. It also provides a basis for investigating 3D scene labelling tasks by providing perfect camera poses and depth data as proxy for a SLAM system. We host the dataset at http://robotvault.bitbucket.io/scenenet-rgbd.html

연구 동기 및 목표

데이터 요구량이 많은 딥 러닝 모델을 훈련하기 위해 대규모, 고품질, 완전한 지도 학습이 가능한 RGB-D 데이터셋의 부족 문제를 해결하기 위해.
완전한 지도 학습 지도를 제공하는 포토리얼리틱한 합성 데이터를 생성하여 고비용 수동 주석 생성에 의존하는 것을 줄이기 위해.
현실적이며 다양한 합성 데이터를 활용해 컴퓨터 비전 모델을 처음부터 사전 훈련할 수 있도록 하기 위해.
일致한 카메라 경로와 메트릭 깊이를 제공하여 시간적 및 기하학적 비전 작업을 지원하기 위해.
물리적으로 타당하고 랜덤화된 실내 환경 구성으로 도메인 적응 및 3D 장면 이해를 촉진하기 위해.

제안 방법

포토리얼리틱한 RGB-D 이미지는 완전한 조명 효과, 운동 흐림, 현실적인 카메라 반응 함수를 갖춘 레이트레이싱 렌더러를 사용하여 생성된다.
합성 장면은 Chrono 엔진을 사용해 ShapeNet의 3D 물체를 물리 기반 시뮬레이션된 레이아웃에 무작위로 배치하여 안정적이고 현실적인 구성이 보장되도록 절차적으로 생성된다.
자연스러운 인간 유사 운동을 시뮬레이션하기 위해 카메라 경로가 자동으로 생성되며, 부드럽고 연속적인 경로와 보간된 자세를 통해 운동 흐림 효과가 구현된다.
1~5개의 빛원천(점광원 및 면광원)을 사용해 랜덤 조명을 적용하며, 색조, 강도, 위치가 랜덤으로 설정되며 장면의 상단 반구 쪽을 우선시한다.
벽, 바닥, 커튼 등의 실제 세계 자료에서 수집한 대규모 자료집에서 무작위로 텍스처를 추출하여, 장면 간 시각적 다양성을 확보한다.
비선형 카메라 반응 함수(CRF)를 적용해 실제 카메라 동작을 시뮬레이션하고, 渲染 중 카메라 자세의 시간적 통합을 통해 운동 흐림을 구현한다.

실험 결과

연구 질문

RQ1완전한 픽셀 단위 지도 학습 지도를 갖춘 대규모 포토리얼리틱한 합성 RGB-D 데이터셋을 생성할 수 있는가?
RQ2실제 조명, 운동 흐림, 물리적으로 타당한 물체 배치를 갖춘 합성 데이터는 광학 흐름 및 깊이 추정과 같은 작업에서 모델 사전 훈련에 얼마나 효과적인가?
RQ3무작위 장면 및 경로 생성 방식이 수동 설계나 주석 없이 다양하고 현실적이며 확장 가능한 훈련 데이터를 얼마나 잘 생성할 수 있는가?
RQ4이러한 데이터셋은 실제 로봇 기술 및 증강 현실 응용 분야에서 더 나은 일반화 및 도메인 적응을 가능하게 하는가?
RQ5정확한 카메라 경로 및 깊이 데이터 포함이 3D 장면 레이블링 및 SLAM 유사 시스템 훈련에 어떻게 기여하는가?

주요 결과

이 데이터셋은 다양한 무작위로 생성된 실내 레이아웃에서 15,000개 이상의 고유한 카메라 경로를 기반으로 500만 장의 고품질 RGB-D 이미지를 포함한다.
각 이미지에는 의미 분할, 인스턴스 분할, 광학 흐름, 깊이, 카메라 자세에 대한 픽셀 단위 정확도의 주석이 함께 제공되어 다중 작업 학습이 가능하다.
레이트레이싱과 현실적인 CRF의 사용으로 포토리얼리틱한 이미지 품질을 확보하여 실제 카메라 동작과 유사하게 구현된다.
보간된 카메라 자세의 시간적 통합을 통해 운동 흐림이 효과적으로 시뮬레이션되며, 지도 학습 지도에 영향을 주지 않는다.
랜덤화된 조명 및 텍스처 적용으로 동일한 기하학적 레이아웃이라도 다양한 시각적 표현이 가능해져 데이터 다양성이 향상된다.
정적 장면 및 동적 물리 시뮬레이션 부재 등의 제약이 존재하지만, 데이터셋은 강력한 사전 훈련을 가능하게 하며, 로봇 기술 및 AR 분야에서 도메인 적응 잠재력을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.