[논문 리뷰] MVSFormer: Multi-View Stereo by Learning Robust Image Features and Temperature-based Depth
MVSFormer는 사전 학습된 Vision Transformer를 도입하여 MVS 특징 학습을 강화하고 회귀와 분류 깊이를 온도 기반 깊이 추론으로 통합하며, DTU 및 Tanks-and-Temples 데이터셋에서 최첨단 성능을 달성한다.
Feature representation learning is the key recipe for learning-based Multi-View Stereo (MVS). As the common feature extractor of learning-based MVS, vanilla Feature Pyramid Networks (FPNs) suffer from discouraged feature representations for reflection and texture-less areas, which limits the generalization of MVS. Even FPNs worked with pre-trained Convolutional Neural Networks (CNNs) fail to tackle these issues. On the other hand, Vision Transformers (ViTs) have achieved prominent success in many 2D vision tasks. Thus we ask whether ViTs can facilitate feature learning in MVS? In this paper, we propose a pre-trained ViT enhanced MVS network called MVSFormer, which can learn more reliable feature representations benefited by informative priors from ViT. The finetuned MVSFormer with hierarchical ViTs of efficient attention mechanisms can achieve prominent improvement based on FPNs. Besides, the alternative MVSFormer with frozen ViT weights is further proposed. This largely alleviates the training cost with competitive performance strengthened by the attention map from the self-distillation pre-training. MVSFormer can be generalized to various input resolutions with efficient multi-scale training strengthened by gradient accumulation. Moreover, we discuss the merits and drawbacks of classification and regression-based MVS methods, and further propose to unify them with a temperature-based strategy. MVSFormer achieves state-of-the-art performance on the DTU dataset. Particularly, MVSFormer ranks as Top-1 on both intermediate and advanced sets of the highly competitive Tanks-and-Temples leaderboard.
연구 동기 및 목표
- 강한 반사 및 질감이 적은 영역을 처리할 수 있도록 MVS의 견고한 특징 학습 동기를 부여한다.
- 사전 학습된 Vision Transformers (ViTs)를 활용해 MVS의 CNN 기반 특징 추출을 보강하는 방법을 탐구한다.
- ViT 기반 특징을 고해상도 MVS 입력에 맞게 다중 스케일 학습 전략으로 적응시키는 방법을 개발한다.
- 회귀 및 분류 기반 깊이 추정을 통합하기 위한 온도 기반 깊이 예측을 제안한다.
제안 방법
- 사전 학습된 ViTs(Twins 또는 DINO)를 CNN 기반 FPN 특징 추출기와 통합하여 MVS에 대한 보완적 다중 스케일 특징을 얻는다.
- ViT로부터 얻은 특징을 FPN 인코더의 가장 높은 레벨에 더하는 간단한 특징 융합을 사용한다.
- ViT 학습을 다양한 해상도로 가능하게 하는 그래디언트 누적을 활용한 효율적 다중 스케일 학습 전략을 구현한다.
- 뷰 가중치 특징 상관 및 가시성 가중치를 포함하는 다중 단계 비용 부피를 구성한 후 3D U-Net 정규화를 적용한다.
- 비용 부피를 고정 온도 스케줄로 소프트맥스 스케일링하여 분류하기와 회귀하기를 통합하는 온도 기반 추론을 도입한다.
- 학습 비용을 줄이기 위해 동결된 DINO 백본과 GLU 기반 융합을 갖는 대안 MVSFormer-P 변형을 제공한다.
실험 결과
연구 질문
- RQ1사전 학습된 ViTs가 반사 및 질감이 부족한 영역에 대해 MVS 특징 표현과 일반화를 향상시킬 수 있는가?
- RQ2다중 스케일 ViT 기반 학습 전략이 고해상도 MVS에서 견고한 성능을 가능하게 하는가?
- RQ3온도 기반 깊이 추론이 회귀 및 분류 접근 방식을 통합하여 깊이 정확도와 포인트 클라우드를 개선할 수 있는가?
- RQ4ViT 강화 MVSFormer가 DTU 및 Tanks-and-Temples와 같은 표준 MVS 벤치마크에서 최첨단 방법과 어떻게 비교되는가?
주요 결과
| Method | Accuracy (mm) ↓ | Completeness (mm) ↓ | Overall (mm) ↓ |
|---|---|---|---|
| Gipuma | 0.283 | 0.873 | 0.578 |
| COLMAP | 0.400 | 0.664 | 0.532 |
| R-MVSNet | 0.385 | 0.459 | 0.422 |
| AA-RMVSNet | 0.376 | 0.339 | 0.357 |
| CasMVSNet | 0.325 | 0.385 | 0.355 |
| CDS-MVSNet | 0.352 | 0.280 | 0.316 |
| UniMVSNet | 0.352 | 0.278 | 0.315 |
| TransMVSNet | 0.321 | 0.289 | 0.305 |
| GBiNet* | 0.312 | 0.293 | 0.303 |
| MVSFormer | 0.327 | 0.251 | 0.289 |
| MVSFormer-P | 0.327 | 0.265 | 0.296 |
- Twins-small을 사용하는 MVSFormer는 CNN 사전 학습 백본과 비교하여 DTU에서 재구성 오차를 크게 줄인다(예: 표 1의 전체 오차가 0.312에서 0.289로 감소).
- MVSFormer는 Tanks-and-Temples의 중간 세트와 고급 세트 모두에서 Top-1에 올랐으며 평균 F-점수는 66.37(중간) 및 40.87(고급)이다.
- 분류 기반 신뢰도 맵은 이상치와 반사에 대한 강건성을 제공하고 추론 중 온도 기반 깊이(D_tmp)는 예측을 매끄럽게 하고 포인트 클라우드를 개선한다.
- 온도 기반 깊이 추론은 회귀와 분류 깊이를 통합하며 고정 스케줄 {t^1,t^2,t^3,t^4} = {5, 2.5, 1.5, 1}가 순수 REG 또는 CLA보다 깊이 예측을 개선한다.
- MVSFormer-P(동결된 DINO)은 훈련 비용을 줄이면서도 경쟁력 있는 결과를 달성한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.