Skip to main content
QUICK REVIEW

[논문 리뷰] Holopix50k: A Large-Scale In-the-wild Stereo Image Dataset

Yiwen Hua, Puneet Kohli|arXiv (Cornell University)|2020. 03. 25.
Advanced Vision and Imaging참고 문헌 55인용 수 26
한 줄 요약

이 논문은 휴대폰 소셜 플랫폼인 홀로픽스(Holopix)에서 수집한 사용자 생성 이미지 49,368쌍으로 구성된 대규모 실외 환경 스테레오 이미지 데이터셋인 홀로픽스50k(Holopix50k)을 소개한다. 이 데이터셋은 스테레오 초해상도 및 자기지도 학습 기반 단안 깊이 추정에서 뛰어난 성능과 일반화 능력을 보이며, 스케일, 다양성, 실생활 모바일 사진 촬영 조건 등에서 기존 데이터셋을 뛰어넘는다.

ABSTRACT

With the mass-market adoption of dual-camera mobile phones, leveraging stereo information in computer vision has become increasingly important. Current state-of-the-art methods utilize learning-based algorithms, where the amount and quality of training samples heavily influence results. Existing stereo image datasets are limited either in size or subject variety. Hence, algorithms trained on such datasets do not generalize well to scenarios encountered in mobile photography. We present Holopix50k, a novel in-the-wild stereo image dataset, comprising 49,368 image pairs contributed by users of the Holopix mobile social platform. In this work, we describe our data collection process and statistically compare our dataset to other popular stereo datasets. We experimentally show that using our dataset significantly improves results for tasks such as stereo super-resolution and self-supervised monocular depth estimation. Finally, we showcase practical applications of our dataset to motivate novel works and use cases. The Holopix50k dataset is available at http://github.com/leiainc/holopix50k

연구 동기 및 목표

  • 모바일 사진 촬영 환경을 대변하는 대규모, 다양한 실외 스테레오 이미지 데이터셋의 부족을 보완하기 위해.
  • 장면 콘텐츠, 조명, 카메라 설정의 높은 다양성을 바탕으로 스테레오 시각 모델의 일반화 능력을 향상시키기 위해.
  • 대규모 실생활 훈련 데이터를 통해 스테레오 초해상도 및 자기지도 학습 기반 단안 깊이 추정에서 최신 기술 수준의 성능을 달성하기 위해.
  • 실시간 디스parity 추정, 3D 사진 촬영, 라이트필드 이미징과 같은 실용적 모바일 애플리케이션을 지원하기 위해.
  • 공개 가능하고 고품질인 데이터셋을 제공함으로써 향후 실외 스테레오 시각 분야의 연구 기반을 마련하기 위해.

제안 방법

  • 데이터셋은 라이트필드 및 스테레오 이미지를 전문으로 하는 홀로픽스 모바일 소셜 플랫폼의 사용자 업로드에서 수집되었다.
  • 정렬과 품질 확보를 위해 학습된 스테레오 디스파리티 네트워크를 사용하여 이미지를 필터링하고 정렬하였으며, 가짜 레이블이 부여된 디스파리티 맵을 필터링 기준으로 사용하였다.
  • 고정밀한 에지 디테일을 확보하기 위해 약 340,000개의 가중치와 약 1.5 GFLOPS의 계산 부하를 가지는 U-Net 유사 아키텍처를 사용하여 스테레오 디스파리티 추정 네트워크를 훈련시켰다.
  • 모바일 배포를 고려하여 속도를 우선시한 경량 실시간 디스파리티 추정 네트워크를 훈련시켰으며, 이는 약 15,000개의 가중치와 약 0.15 GFLOPS의 계산 부하를 가졌다.
  • 홀로픽스50k와 메가딥스(Megadepth) 데이터셋을 조합하여 가짜 레이블이 부여된 깊이 맵을 활용한 준지도 학습 기반의 단안 깊이 추정 모델을 훈련시켰다.
  • 이미지 번역을 조건부로 모델링하기 위해 피픽스2픽스(Pix2Pix) 유사 아키텍처와 패치GAN 판별기(PatchGAN discriminator)를 사용한 훈련 파이프라인을 구현하였다.

실험 결과

연구 질문

  • RQ1모바일 소셜 플랫폼에서 수집한 대규모 실외 스테레오 데이터셋이 스테레오 초해상도 및 자기지도 학습 기반 깊이 추정 성능 향상에 기여할 수 있는가?
  • RQ2홀로픽스50k의 사용자 생성 데이터가 기존 스테레오 데이터셋 대비 다양성과 현실성 측면에서 일반화 능력과 견고성 측면에서 어떻게 비교되는가?
  • RQ3홀로픽스50k에서 훈련된 모델이 메이들리(Middlebury)와 같은 실생활 및 시뮬레이션 스테레오 벤치마크에 얼마나 잘 일반화되는가?
  • RQ4학습된 스테레오 네트워크에서 생성된 가짜 레이블이 부여된 디스파리티 맵을 사용해 대규모 데이터셋을 효과적으로 필터링하고 정제할 수 있는가?
  • RQ5이 데이터셋을 기반으로 훈련된 고품질 실시간 디스파리티 추정 모델이 어떤 실용적 모바일 애플리케이션을 가능하게 하는가?

주요 결과

  • 홀로픽스50k는 현재까지 공개된 바 있는 가장 큰 실외 스테레오 데이터셋으로, 49,368개의 고품질 정렬된 스테레오 이미지 쌍을 포함하고 있다.
  • 특히 실생활 모바일 사진 촬영 조건을 잘 반영함에 따라 다양성, 장면 다양성, 품질 지표 측면에서 기존 데이터셋을 뛰어넘는다.
  • 홀로픽스50k에서 훈련된 모델은 스테레오 초해상도 및 자기지도 학습 기반 단안 깊이 추정에서 뚜렷한 성능 향상을 보이며, 더 선명한 에지 디테일과 더 나은 깊이 층 구조를 확보한다.
  • 스테레오 디스파리티 추정 네트워크는 메이들리 벤치마크에서 검증된 바 바탕으로 높은 스테레오 일致성과 선명한 에지 디테일을 확보하였다.
  • 실시간 디스파리티 네트워크는 다소 부드럽지만, 비디오 통화 및 라이트필드 미리보기와 같은 모바일 애플리케이션에 적합한 실시간 추론 속도를 확보하였다.
  • 홀로픽스50k와 메가딥스를 함께 사용하여 훈련된 준지도 학습 기반 단안 깊이 모델은 인간 주제를 포함한 근거리 및 중거리 장면에서도 일반화 능력이 뛰어나며, 기준 모델이 실패하는 상황에서도 잘 작동한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.