[논문 리뷰] MegaDepth: Learning Single-View Depth Prediction from Internet Photos
저자들은 SfM+MVS를 사용하여 인터넷 사진 모음에서 대규모 깊이 데이터셋 MegaDepth를 만들고, 의미론 필터링과 서수(ordinal) 데이터를 통해 깊이 맵을 정제하며, 학습 시 그 데이터를 보지 않고도 새로운 장면과 다른 데이터셋에 일반화되는 CNN을 학습합니다.
Single-view depth prediction is a fundamental problem in computer vision. Recently, deep learning methods have led to significant progress, but such methods are limited by the available training data. Current datasets based on 3D sensors have key limitations, including indoor-only images (NYU), small numbers of training examples (Make3D), and sparse sampling (KITTI). We propose to use multi-view Internet photo collections, a virtually unlimited data source, to generate training data via modern structure-from-motion and multi-view stereo (MVS) methods, and present a large depth dataset called MegaDepth based on this idea. Data derived from MVS comes with its own challenges, including noise and unreconstructable objects. We address these challenges with new data cleaning methods, as well as automatically augmenting our data with ordinal depth relations generated using semantic segmentation. We validate the use of large amounts of Internet data by showing that models trained on MegaDepth exhibit strong generalization-not only to novel scenes, but also to other diverse datasets including Make3D, KITTI, and DIW, even when no images from those datasets are seen during training.
연구 동기 및 목표
- 대규모 인터넷 사진 모음을 활용하여 구조-마-from- motion과 다중 시점 스테레오를 통해 단일 뷰 깊이 예측을 위한 학습 데이터를 생성한다.
- noisy MVS 출력과 다이나믹한 물체를 다룰 수 있는 데이터 정제 및 증강 기법을 개발한다.
- 한 이미지에서 깊이를 예측하고 보지 않은 위치와 데이터셋에 일반화되는 CNN을 학습한다.
- MegaDepth에서 학습된 모델이 기존 깊이 데이터셋으로 학습한 모델보다 더 잘 일반화하거나 일반화 능력이 뛰어남을 입증한다.
제안 방법
- 랜드마크의 Flickr 이미지를 Colmap으로 3D SfM+MVS 재구성하여 많은 이미지의 깊이 맵을 얻는다.
- 아웃라이어를 줄이기 위해 보수적인 MVS 업데이트와 중앙값 필터링으로 깊이 맵을 정제한다.
- 전경/배경/하늘을 구분하기 위해 의미 분할(PSPNet)을 사용하고 전경 영역의 깊이를 필터링한다.
- 의미론적 및 기하학적 신호에서 서수(depth) 관계를 자동으로 생성하여 추가 학습 신호를 제공한다.
- 스케일-불변 손실을 로그 깊이 영역에서 사용하는 깊이 예측 네트워크(실험된 옵션 중 Hourglass 아키텍처)와 다중 스케일 그래디언트 항 및 서수 깊이 항을 포함한 손실로 학습한다.
- Make3D, KITTI, DIW에서 학습 데이터 없이 일반화 성능을 평가하고, 필요 시 특정 데이터셋에서 파인튜닝한다.
실험 결과
연구 질문
- RQ1인터넷 사진 모음에서 얻은 방대한 느슨하게 감독된 깊이 데이터가 단일 뷰 깊이 예측기를 강한 일반화 능력으로 학습시키는가?
주요 결과
- 대략 130K개의 사용 가능한 이미지와 약 200개의 3D 모델로 구성된 MegaDepth 데이터셋이 단일 뷰 깊이 예측 모델의 학습을 뒷받침한다.
- 깊이 정제(보수적 MVS 업데이트와 의미적 필터링)가 외부 데이터셋으로의 일반화를 크게 향상시킨다.
- 스케일-불변 데이터 항, 다중 스케일 그래디언트 항, 강력한 서수 깊이 항이 포함된 결합 손실은 특히 도전적인 객체의 구조 보존과 깊이 정확도 향상에 기여한다.
- MegaDepth로 학습된 모델은 학습 데이터 도메인을 벗어난 보지 않고도 새로운 장면 및 Make3D, KITTI, DIW에 더 잘 일반화한다.
- Make3D 또는 KITTI에서 MegaDepth 학습 모델을 미세조정하면 비도메인 특화 훈련 방식 중 최첨단 성능에 도달한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.