[논문 리뷰] PVSNet: Pixelwise Visibility-Aware Multi-View Stereo Network
PVSNet은 인접 뷰에 대한 픽셀 단위 가시성을 학습하여 다중 뷰 스테레오에서 각 뷰의 기여를 가중하며, 잡음 방지 학습 전략으로 ETH3D high-res를 포함한 여러 데이터셋에서 최첨단 성능을 달성합니다.
Recently, learning-based multi-view stereo methods have achieved promising results. However, they all overlook the visibility difference among different views, which leads to an indiscriminate multi-view similarity definition and greatly limits their performance on datasets with strong viewpoint variations. In this paper, a Pixelwise Visibility-aware multi-view Stereo Network (PVSNet) is proposed for robust dense 3D reconstruction. We present a pixelwise visibility network to learn the visibility information for different neighboring images before computing the multi-view similarity, and then construct an adaptive weighted cost volume with the visibility information. Moreover, we present an anti-noise training strategy that introduces disturbing views during model training to make the pixelwise visibility network more distinguishable to unrelated views, which is different with the existing learning methods that only use two best neighboring views for training. To the best of our knowledge, PVSNet is the first deep learning framework that is able to capture the visibility information of different neighboring views. In this way, our method can be generalized well to different types of datasets, especially the ETH3D high-res benchmark with strong viewpoint variations. Extensive experiments show that PVSNet achieves the state-of-the-art performance on different datasets.
연구 동기 및 목표
- 강한 시점 변화 속에서 각 픽셀의 가시성을 뷰 간에 모델링하여 견고한 밀도형 3D 재구성을 목표로 한다.
- 참조 뷰에 상대적인 인접 이미지의 픽셀 단위 가시성 맵을 학습하기 위한 픽셀 단위 가시성 네트워크를 도입한다.
- 학습된 가시성 가중치를 사용해 두 뷰 비용 부피를 집계하여 견고한 통합 비용 부피를 형성한다.
- 안티-노이즈 학습 전략을 제안하여 방해 뷰를 학습에 노출시켜 견고성을 향상시킨다.
- ETH3D high-res를 포함한 다수 MVS 벤치마크에서 최첨단 성능을 입증한다.
제안 방법
- 여러 깊이 가설을 사용한 평면-스윕을 통해 이웃 이미지마다 두 뷰 비용 부피를 구성한다.
- 2D 픽셀 단위 가시성 맵을 3D U-Net으로 회귀하여 두 뷰 비용 부피에서 차폐 및 시점 기하 효과를 포착한다.
- 가시성 맵을 가중치로 사용해 두 뷰 비용을 하나의 가중 비용 부피로 집계한다 (C_agg = sum V_i' * C_ref,i / sum V_i').
- 깊이 맵을 얻기 위해 비용 부피 필터링과 역 깊이 회귀를 3D CNN 기반 파이프라인으로 수행한다.
- 이전 단계의 가시성을 이용해 얇고 해상도가 높은 비용 부피를 구축하여 고해상도 추정으로 확장한다.
- 훈련 중 최악의 두 뷰를 포함시켜 관련이 없는 뷰에 대한 구분력을 향상시키는 안티-노이즈 학습 전략을 도입한다.
실험 결과
연구 질문
- RQ1인접 뷰 간 픽셀 단위 가시성 정보를 학습하고 활용하여 MVS 깊이 추정을 향상시킬 수 있는가?
- RQ2가시성을 명시적으로 모델링하면 시점 변화가 큰 데이터셋(예: ETH3D high-res)에서 더 강건한 깊이 집합화가 가능해지는가?
- RQ3안티-노이즈 학습 전략이 비신뢰 뷰에 대한 민감도를 감소시키고 뷰 수가 늘어날 때 성능을 향상시키는가?
주요 결과
- PVSNet은 이웃 뷰에 대한 픽셀 단위 가시성 맵을 학습하고 이를 이용해 두 뷰 비용 부피를 가중 평균화하여 관련 없는 뷰로부터의 잡음 영향력을 감소시킨다.
- 잡음 방지 학습 전략(AN)은 거동하는 Views를 포함하여 입력 뷰의 수가 증가할 때 견고성과 성능을 크게 향상시킨다.
- DTU 데이터셋에서 고해상도 버전의 PVSNet은 최첨단 완전도와 경쟁력 있는 정확도 및 종합 점수에서 학습 기반 방법들 가운데 상위권이다.
- 가시성 추정이 포함된 PVSNet은 Tanks and Temples에서, 강한 시점 변화가 있는 Advanced 데이터셋을 포함해 결과를 향상시킨다.
- ETH3D high-res 벤치마크에서 PVSNet은 학습 기반 방법으로는 최초로 평가되었으며 Colmap과 낮은 해상 입력에 비견되는 경쟁적 정확도와 완전도를 달성한다.
- 전반적으로 PVSNet은 실내/실외 및 시점 변화가 다양한 데이터셋에서 강력한 일반화를 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.