QUICK REVIEW

[논문 리뷰] Learning a Multi-View Stereo Machine

Abhishek Kar, Christian Häne|arXiv (Cornell University)|2017. 08. 17.

Advanced Vision and Imaging참고 문헌 51인용 수 216

한 줄 요약

이 논문은 Learnt Stereo Machines(LSMs)를 소개합니다: 2D 특징을 3D 공간으로 언프로젝션하고 이를 순환 격자와 융합하여 보셀 점유 상태나 뷰별 깊이 맵을 생산하는 엔드-투-엔드 차별화 가능한 네트워크로 다중 뷰 스테레오를 수행합니다. 적은 수의 뷰에서 기하학적으로 인지된 재구성과 보지 못한 카테고리에 대한 강한 일반화를 시연합니다.

ABSTRACT

We present a learnt system for multi-view stereopsis. In contrast to recent learning based methods for 3D reconstruction, we leverage the underlying 3D geometry of the problem through feature projection and unprojection along viewing rays. By formulating these operations in a differentiable manner, we are able to learn the system end-to-end for the task of metric 3D reconstruction. End-to-end learning allows us to jointly reason about shape priors while conforming geometric constraints, enabling reconstruction from much fewer images (even a single image) than required by classical approaches as well as completion of unseen surfaces. We thoroughly evaluate our approach on the ShapeNet dataset and demonstrate the benefits over classical approaches as well as recent learning based methods.

연구 동기 및 목표

3D 기하를 엔드-투-엔드 학습 프레임워크 내에서 다중 뷰 스테레오(MVS)에 활용합니다.
기하학적 priors 및 학습된 단서를 통합하여 소수의 뷰, 심지어 단일 이미지로부터 3D 기하를 재구성합니다.
두 가지 출력 형식: 보셀 점유 격자(Voxel LSM) 및 뷰별 깊이 맵(D LS M).
보지 못한 물체 카테고리에 대한 일반화를 평가하고 전통적 및 학습 기반 기준선과 비교합니다.]
method["공통 2D 특징 인코더를 통해 입력 이미지를 처리하여 밀집 특징 맵을 얻습니다.","뷰잉 레이를 따라 differentiable bilinear sampling으로 2D 특징을 3D 특징 격자로 언프로젝트합니다.","3D 컨브-GRU와 3D 특징 격자를 융합하여 로컬 매칭 비용의 단일 격자를 생성합니다.","융합된 3D 격자를 3D UNet으로 판단하여 점유 또는 깊이 추정을 위한 정제된 3D 격자를 생성합니다.","차 differentiable projection 연산을 통해 3D 격자를 2D 뷰로 다시 투영하여 뷰별 출력을 얻습니다.","V-LSM은 보셀 점유(이진 교차 엔트로피), D-LSM은 깊이(L1 손실)로 각각 학습합니다."]
research_questions:[
엔드-투-엔드 학습이 기하학적 제약을 활용해 소수의 뷰로부터 3D 기하를 재구성하는 데 고전적 방법보다 더 효과적일 수 있는가?
카메라 포즈 정보와 차별화된 3D 투영/언프로젝션을 통합하면 포즈에 무관하거나 순수 이미지 기반 기준선과 비교하여 재구성이 향상되는가?
LSMs가 보지 못한 물체 카테고리에 얼마나 잘 일반화하는가, 즉 기하학적 단서에 의존하는가를 나타내는가?
Voxel-LSM과 Depth-LSM은 뷰 간 정확도 및 적용성에서 어떻게 비교되는가?
LSM의 성능은 입력 뷰 수에 따라 어떻게 확장되고 평면 스윕 및 시각적 헐 기준선과 어떻게 비교되는가?]
key_findings:["Voxel IoU는 뷰 수가 늘어남에 따라 향상되며, 1~4뷰에 대해 각각 61.5, 72.1, 76.2, 78.2로 나타납니다( baselines와 비교 ).","Visual hull 및 R2N2 기준선은 추가 뷰에서의 이득이 더 낮아 LSM이 기하학적 다중뷰 단서를 활용하는 능력을 강조합니다.","Depth-LSM은 뷰별 깊이 맵을 생성하여 일관된 언프로젝션 포인트 클라우드를 가능하게 하며 텍스처가 없는 영역에서 평면선택보다 우수할 수 있습니다.","일반화 테스트는 증가하는 뷰 수에 따라 범주 독립적 개선을 보여 주며 시 sem priors를 넘어서는 기하학적 단서를 의존함을 시사합니다.","D-LSM의 깊이 예측은 메트릭적으로 의미 있는 기하학과 더 얇은 구조를 나타내며 도전적인 사례(예: 의자)에서 3D 부피 출력과 잘 맞습니다."]
table_headers:["# 뷰 수","3D-R2N2","시각적 헐","3D-R2N2 w/pose","V-LSM","V-LSM w/bg"]
table_rows:[["1","55.6","18.0","55.1","61.5","60.5"],["2","59.6","36.9","59.4","72.1","69.8"],["3","61.3","47.0","61.2","76.2","73.7"],["4","62.0","52.4","62.1","78.2","75.6"]]} } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } }} } } } } } } } } } } } } } } } } } } } } } } } } } } } } }}}} } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } }}} } } }}} } }}}

제안 방법

공통 2D 특징 인코더를 통해 입력 이미지를 처리하여 밀집 특징 맵을 얻습니다.
뷰잉 레이를 따라 differentiable bilinear sampling으로 2D 특징을 3D 특징 격자로 언프로젝트합니다.
3D 컨브-GRU와 3D 특징 격자를 융합하여 로컬 매칭 비용의 단일 격자를 생성합니다.
융합된 3D 격자를 3D UNet으로 판단하여 점유 또는 깊이 추정을 위한 정제된 3D 격자를 생성합니다.
차 differentiable projection 연산을 통해 3D 격자를 2D 뷰로 다시 투영하여 뷰별 출력을 얻습니다.
V-LSM은 보셀 점유(이진 교차 엔트로피), D-LSM은 깊이(L1 손실)로 각각 학습합니다.

실험 결과

연구 질문

RQ1엔드-투-엔드 학습이 기하학적 제약을 활용해 소수의 뷰로부터 3D 기하를 재구성하는 데 고전적 방법보다 더 효과적일 수 있는가?
RQ2카메라 포즈 정보와 차별화된 3D 투영/언프로젝션을 통합하면 포즈에 무관하거나 순수 이미지 기반 기준선과 비교하여 재구성이 향상되는가?
RQ3LSMs가 보지 못한 물체 카테고리에 얼마나 잘 일반화하는가, 즉 기하학적 단서에 의존하는가를 나타내는가?
RQ4Voxel-LSM과 Depth-LSM은 뷰 간 정확도 및 적용성에서 어떻게 비교되는가?
RQ5LSM의 성능은 입력 뷰 수에 따라 어떻게 확장되고 평면 스윕 및 시각적 헐 기준선과 어떻게 비교되는가?]
RQ6key_findings:[
RQ7Voxel IoU는 뷰 수가 늘어남에 따라 향상되며, 1~4뷰에 대해 각각 61.5, 72.1, 76.2, 78.2로 나타납니다( baselines와 비교 ).
RQ8Visual hull 및 R2N2 기준선은 추가 뷰에서의 이득이 더 낮아 LSM이 기하학적 다중뷰 단서를 활용하는 능력을 강조합니다.
RQ9Depth-LSM은 뷰별 깊이 맵을 생성하여 일관된 언프로젝션 포인트 클라우드를 가능하게 하며 텍스처가 없는 영역에서 평면선택보다 우수할 수 있습니다.
RQ10일반화 테스트는 증가하는 뷰 수에 따라 범주 독립적 개선을 보여 주며 시 sem priors를 넘어서는 기하학적 단서를 의존함을 시사합니다.
RQ11D-LSM의 깊이 예측은 메트릭적으로 의미 있는 기하학과 더 얇은 구조를 나타내며 도전적인 사례(예: 의자)에서 3D 부피 출력과 잘 맞습니다.

주요 결과

Voxel IoU는 뷰 수가 늘어남에 따라 향상되며, 1~4뷰에 대해 각각 61.5, 72.1, 76.2, 78.2로 나타납니다( baselines와 비교 ).
Visual hull 및 R2N2 기준선은 추가 뷰에서의 이득이 더 낮아 LSM이 기하학적 다중뷰 단서를 활용하는 능력을 강조합니다.
Depth-LSM은 뷰별 깊이 맵을 생성하여 일관된 언프로젝션 포인트 클라우드를 가능하게 하며 텍스처가 없는 영역에서 평면선택보다 우수할 수 있습니다.
일반화 테스트는 증가하는 뷰 수에 따라 범주 독립적 개선을 보여 주며 시 sem priors를 넘어서는 기하학적 단서를 의존함을 시사합니다.
D-LSM의 깊이 예측은 메트릭적으로 의미 있는 기하학과 더 얇은 구조를 나타내며 도전적인 사례(예: 의자)에서 3D 부피 출력과 잘 맞습니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.