Skip to main content
QUICK REVIEW

[논문 리뷰] IGNOR: Image-guided Neural Object Rendering

Justus Thies, Michael Zollhöfer|arXiv (Cornell University)|2018. 11. 26.
Advanced Vision and Imaging참고 문헌 54인용 수 23
한 줄 요약

이 논문은 3차원 물체의 사진처럼 생긴 재현을 정확한 시점에 의존하는 효과와 함께 생성하는 자기지도 학습 신경 렌더링 방법인 IGNOR을 제안한다. 이미지 기반 렌더링과 딥러닝을 결합하여, 시점에 따라 변하는 효과를 정확히 반영한 사진 수준의 재현을 가능하게 한다. 효과넷(Siamese 네트워크)을 사용해 입력 이미지에서 반사광을 추정하고 제거함으로써, 확산 이미지의 새로운 시점으로의 왜곡을 가능하게 하고, 복합 네트워크(CompositionNet)를 통해 왜곡된 이미지와 재삽입된 시점에 의존하는 효과를 융합함으로써, 복잡한 외관, 특히 반사광을 다루는 데서 최신 기술 수준의 성능을 달성한다. 정량적 및 정성적 기준에서 고전적 IBR 및 학습 기반 방법보다 뛰어난 성능을 보였다.

ABSTRACT

We propose a learned image-guided rendering technique that combines the benefits of image-based rendering and GAN-based image synthesis. The goal of our method is to generate photo-realistic re-renderings of reconstructed objects for virtual and augmented reality applications (e.g., virtual showrooms, virtual tours \& sightseeing, the digital inspection of historical artifacts). A core component of our work is the handling of view-dependent effects. Specifically, we directly train an object-specific deep neural network to synthesize the view-dependent appearance of an object. As input data we are using an RGB video of the object. This video is used to reconstruct a proxy geometry of the object via multi-view stereo. Based on this 3D proxy, the appearance of a captured view can be warped into a new target view as in classical image-based rendering. This warping assumes diffuse surfaces, in case of view-dependent effects, such as specular highlights, it leads to artifacts. To this end, we propose EffectsNet, a deep neural network that predicts view-dependent effects. Based on these estimations, we are able to convert observed images to diffuse images. These diffuse images can be projected into other views. In the target view, our pipeline reinserts the new view-dependent effects. To composite multiple reprojected images to a final output, we learn a composition network that outputs photo-realistic results. Using this image-guided approach, the network does not have to allocate capacity on ``remembering'' object appearance, instead it learns how to combine the appearance of captured images. We demonstrate the effectiveness of our approach both qualitatively and quantitatively on synthetic as well as on real data.

연구 동기 및 목표

  • 사진 수준의 새로운 시점 렌더링을 가능하게 하기 위해 반사광과 같은 정확한 시점에 의존하는 효과를 갖춘 3차원 물체를 렌더링하는 데 도전하는 것.
  • 오차 있는 기하학적 구조나 음영 경계에서의 시점 혼합으로 인한 고전적 이미지 기반 렌더링의 아티팩트를 해결하는 것.
  • 재프로젝션된 이미지에 대해 미세 조절 가능한 복합 네트워크를 학습시켜 수작업으로 만든 혼합 기법이 필요 없도록 하는 것.
  • 비용이 많이 드는 감독 없이도 RGB 비디오와 다중 시점 스테레오 복원만으로 자기지도 학습을 가능하게 하는 것.
  • 시간적 일관성과 시점에 의존하는 효과의 공간 정확성을 유지하는 고해상도 재현을 달성하는 것.

제안 방법

  • RGB 비디오에서 3차원 물체의 거친 3D 프록시 기하학적 구조를 다중 시점 스테레오 복원을 통해 생성한다.
  • 효과넷(EffectsNet)은 입력 이미지에서 시점에 의존하는 효과(예: 반사광)를 예측하고 제거하여 왜곡에 적합한 확산 이미지를 생성하는 시아미즈 컨볼루션 신경망이다.
  • 확산 이미지는 3D 프록시 기하학적 구조와 카메라 파rameters를 사용하여 목표 시점으로 재프로젝션되어 기하학적 일관성을 유지한다.
  • 목표 시점에서 효과넷은 목표 시점의 시점에 따라 새로운 시점에 의존하는 효과를 예측하고, 이를 왜곡된 확산 이미지에 다시 추가한다.
  • 복합 네트워크(CompositionNet)는 K개의 가장 가까운 이웃 왜곡 이미지를 융합하여 최종 사진 수준의 출력 이미지를 생성한다.
  • 전체 파이프라인은 최종 출력과 진짜 목표 이미지 간의 L1 손실을 최소화하여 자기지도 학습 방식으로 훈련된다.

실험 결과

연구 질문

  • RQ1자기지도 학습 딥 뉴럴 네트워크가 입력 이미지에서 시점에 의존하는 효과를 효과적으로 분리하여 확산 외관의 정확한 왜곡을 가능하게 할 수 있는가?
  • RQ2학습된 복합 네트워크가 여러 개의 왜곡된 이미지를 조합하여 새로운 시점 합성에 있어 전통적인 혼합 기법을 능가할 수 있는가?
  • RQ3시점에 의존하는 효과를 명시적으로 모델링하고 재삽입하면, 종단 간 학습 또는 고전적 IBR 방법보다 더 높은 시각적 정밀도를 달성할 수 있는가?
  • RQ4특히 도전적인 시점에 의존하는 조건에서 최신 기술 수준의 학습 기반 및 고전적 이미지 기반 렌더링 기법과 비교해 본 결과, 이 방법은 어떻게 성능을 발휘하는가?
  • RQ5명시적인 감독 없이도, 매우 반사적인 표면을 포함한 복잡한 재질을 가진 실제 세계의 물체에 대해 일반화할 수 있는가?

주요 결과

  • 실제 데이터에서 평균 제곱 오차(MSE)가 25.24로, 최신 기술 수준의 IBR 방법인 DeepBlending(MSE: 45.07)과 InsideOut(MSE: 51.17)를 모두 능가한다.
  • 효과넷은 반사광을 성공적으로 제거하고 재삽입하여, 시간적으로 일관되고 시각적으로 타당한 시점에 의존하는 효과의 애니메이션을 생성한다.
  • 복합 네트워크는 재프로젝션 오차를 효과적으로 해결하고 음영 영역을 메꾸며, 가짜 영역이나 혼합 아티팩트 없이 고해상도 출력을 생성한다.
  • 순수한 학습 기반 방법이 데이터 부족 상황에서 강한 아티팩트를 보이는 것과 달리, 이 방법은 더 작은 훈련 데이터셋에서도 우아하게 성능 저하를 보인다.
  • 인터랙티브 속도로 실행 가능하다: NVIDIA 1080Ti에서 효과넷은 50Hz, 복합 네트워크는 10Hz로 작동하여 실시간 VR/AR 응용 분야에 적합하다.
  • 시각적 비교 결과, 이 방법은 Pix2Pix 및 Hedman 등과의 방법보다 더 선명하고 정확한 반사광과 더 나은 색상 일관성을 보이며, 특히 근접 촬영 영역에서 뛰어난 성능을 발휘한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.