QUICK REVIEW

[논문 리뷰] Visibility-aware Multi-view Stereo Network

Jingyang Zhang, Yao Yao|arXiv (Cornell University)|2020. 08. 18.

Advanced Vision and Imaging참고 문헌 31인용 수 52

한 줄 요약

Vis-MVSNet은 픽셀 단위의 가시성을 매칭 불확실성으로 명시적으로 모델링하고 융합하여 다중 시점 스테레오에서 가려진 픽셀의 영향을 줄이고, 특히 심한 가림 하에서 깊이 정확도를 향상시킨다.

ABSTRACT

Learning-based multi-view stereo (MVS) methods have demonstrated promising results. However, very few existing networks explicitly take the pixel-wise visibility into consideration, resulting in erroneous cost aggregation from occluded pixels. In this paper, we explicitly infer and integrate the pixel-wise occlusion information in the MVS network via the matching uncertainty estimation. The pair-wise uncertainty map is jointly inferred with the pair-wise depth map, which is further used as weighting guidance during the multi-view cost volume fusion. As such, the adverse influence of occluded pixels is suppressed in the cost fusion. The proposed framework Vis-MVSNet significantly improves depth accuracies in the scenes with severe occlusion. Extensive experiments are performed on DTU, BlendedMVS, and Tanks and Temples datasets to justify the effectiveness of the proposed framework.

연구 동기 및 목표

가려짐이 다중 뷰 신호를 손상시킬 때 정확한 3D 재구성을 동기화한다.
깊이와 픽셀 단위 매칭 불확실성을 함께 예측하는 엔드-투-엔드 네트워크를 제안한다.
가려진 기여를 억제하기 위해 불확실성 기반 가중치를 멀티뷰 코스트 볼륨 융합에 통합한다.
사전 추정 단계의 깊이 중심으로 점진적으로 좁혀지는 코어-투-파인(coarse-to-fine) 전략과 그룹 간 상관관계(group-wise correlation) 같은 실용 기술을 채택해 성능을 향상시킨다.

제안 방법

각 참조-출처 쌍에 대해 group-wise correlation을 사용한 페어-와이즈 코스트 볼륨을 계산한다.
3D CNN과 soft-argmax를 이용해 페어에서 깊이 맵과 깊이-의 불확실성을 회귀하며, 불확실성은 깊이 분포 엔트로피로부터 도출된다.
페어-와이즈 깊이와 불확실성을 확률 볼륨으로 변환하고, 가중합으로 모든 페어-와이즈 잠재 볼륨을 융합하는데 가중치는 exp(-uncertainty)이다.
soft-argmax를 통해 최종 깊이 맵을 얻기 위해 융합된 볼륨을 규제한다.
사전 단계의 추정치를 중심으로 점차 좁혀지는 깊이 범위를 갖는 코어-투-파인 스킴을 채택한다.
깊이 잔차와 연결된 Laplacian 우도 목적어를 통해 비지도 방식으로 깊이와 함께 불확실성을 학습한다.

실험 결과

연구 질문

RQ1픽셀 단위 가시성을 학습 기반 MVS 프레임워크 내에서 외부 EM-유사 단계 없이 직접 추론할 수 있는가?
RQ2가려짐이 존재할 때 명시적 불확실성 추정이 깊이 융합을 개선하는가?
RQ3불확실성 기반 융합이 가려진 영역과 비가려진 영역의 깊이 정확도에 미치는 영향은 무엇인가?
RQ4제안된 Vis-MVSNet가 표준 MVS 벤치마크(DTU, BlendedMVS, Tanks and Temples)에서 이전 방법들과 비교해 어떤 성능을 보이는가?

주요 결과

방법	Tanks and Temples 평균 F-score	Francis	Horse	Lighthouse	M60	Panther	Playground	Train	Acc.	Comp.	Overall	DTU (mm) 평균
Vis-MVSNet	60.03	77.40	60.23	47.07	63.44	62.21	57.28	60.54	52.07	0.369	0.361	0.365

Vis-MVSNet은 Tanks and Temples, DTU, BlendedMVS 데이터셋에서 최첨단 혹은 경쟁력 있는 결과를 달성한다.
불확실성 가중치를 통한 가려짐 인식 융합은 특히 심한 가림이 있는 장면에서 깊이 정확도를 향상시킨다.
두 단계의 코스트 볼륨 규제와 코어-투-파인 전략이 재구성 품질을 향상시킨다.
불확실성 기반 손실과 엔트로피 유래 불확실성으로 명시적 가시성 감독 없이 엔드-투-엔드 학습이 가능하다.
특정 가시성 인식 융합이 분산 기반 및 단순 평균/최대 융합 베이스라인보다 우수하다는 분석 결과를 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.