Skip to main content
QUICK REVIEW

[논문 리뷰] Deep 3D Pan via Local adaptive "t-shaped" convolutions with global and local adaptive dilations

Juan Luis Gonzalez Bello, Munchurl Kim|arXiv (Cornell University)|2020. 04. 30.
Advanced Vision and Imaging참고 문헌 39인용 수 3
한 줄 요약

이 논문은 단일 2D 입력 이미지에서 고품질 단일 이미지 3D 패닝(Deep 3D Pan) 합성을 가능하게 하는 딥 러닝 아키텍처인 Monster-Net을 제안한다. 이는 T자형 적응형 컨볼루션과 함께 전역 및 국소 적응형 확장 기반으로 구성되어 있으며, 전역 카메라 이동과 국소 3D 기하학을 효과적으로 모델링함으로써 시각 합성 및 비지도 단안 깊이 추정에서 최신 기술 수준의 성능을 달성한다.

ABSTRACT

Recent advances in deep learning have shown promising results in many low-level vision tasks. However, solving the single-image-based view synthesis is still an open problem. In particular, the generation of new images at parallel camera views given a single input image is of great interest, as it enables 3D visualization of the 2D input scenery. We propose a novel network architecture to perform stereoscopic view synthesis at arbitrary camera positions along the X-axis, or Deep 3D Pan, with adaptive kernels equipped with globally and locally adaptive dilations. Our proposed network architecture, the monster-net, is devised with a novel t-shaped adaptive kernel with globally and locally adaptive dilation, which can efficiently incorporate global camera shift into and handle local 3D geometries of the target image's pixels for the synthesis of naturally looking 3D panned views when a 2-D input image is given. Extensive experiments were performed on the KITTI, CityScapes and our VXXLXX_STEREO indoors dataset to prove the efficacy of our method. Our monster-net significantly outperforms the state-of-the-art method, SOTA, by a large margin in all metrics of RMSE, PSNR, and SSIM. Our proposed monster-net is capable of reconstructing more reliable image structures in synthesized images with coherent geometry. Moreover, the disparity information that can be extracted from the kernel is much more reliable than that of the SOTA for the unsupervised monocular depth estimation task, confirming the effectiveness of our method.

연구 동기 및 목표

  • 단일 2D 입력 이미지에서 현실적인 3D 패닝 시각을 합성하는 과제를 해결하기 위해.
  • 단일 이미지 시각 합성에서 전역 카메라 이동과 국소 3D 기하학적 구조를 향상시켜 모델링하기 위해.
  • 비지도 단안 깊이 예측을 위한 불확실성 감소된 디스parity 추정을 향상시키기 위해.
  • 시각 합성 품질과 기하학적 일관성에서 기존 최신 기술 수준의 방법들을 능가하기 위해.

제안 방법

  • 이 방법은 전역 및 국소 적응형 확장률을 사용하여 수신장역할을 동적으로 조정하는 새로운 T자형 적응형 커널을 도입한다.
  • 전역 적응형 확장은 네트워크의 특징 학습 과정에 X축 방향의 전체 카메라 이동을 통합한다.
  • 국소 적응형 확장은 목표 시각의 각 픽셀 주변의 국소 3D 기하학을 세밀하게 모델링할 수 있도록 한다.
  • 이러한 적응형 컨볼루션을 통합한 네트워크 아키텍처인 Monster-Net은 임의의 카메라 위치에서 고해상도 스테레오 시각을 합성한다.
  • 적응형 확장 메커니즘은 훈련 중에 엔드 투 엔드로 학습되며, 입력 콘텐츠에 따라 커널 확장을 자동으로 校정할 수 있도록 한다.
  • 동일한 특징 맵을 사용하여 합성된 시각과 디스파리 맵을 생성함으로써 일관성과 신뢰성을 향상시킨다.

실험 결과

연구 질문

  • RQ1적응형 확장은 단일 2D 이미지에서 합성된 3D 패닝 시각의 품질과 기하학적 일관성을 향상시키는가?
  • RQ2전역 카메라 이동과 국소 3D 기하학의 통합은 시각 합성 성능에 어떤 영향을 미치는가?
  • RQ3제안된 네트워크는 최신 기술 수준의 방법들과 비교해 뛰어난 성능을 내는가?
  • RQ4T자형 적응형 커널은 시각 합성 작업을 위한 특징 표현을 얼마나 향상시키는가?

주요 결과

  • Monster-Net은 KITTI, CityScapes, VXXLXX_STEREO 데이터셋에서 RMSE, PSNR, SSIM 등 모든 지표에서 최신 기술 수준의 방법을 뛰어넘는 성능을 보였다.
  • 기본 방법과 비교해 볼 때, 합성된 이미지의 구조가 더 신뢰성 있고 3D 기하학적 일관성이 뛰어나다.
  • Monster-Net이 예측한 디스파리 맵은 최신 기술 수준의 방법보다 더 정확하고 일관성이 높아, 향상된 깊이 추정 능력을 확인한다.
  • 다양한 환경, 즉 실내 및 실외 환경을 포함한 다양한 시나리오에서 강력한 일반화 능력을 보이며, 여러 벤치마크 데이터셋에서 검증되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.