[논문 리뷰] BA-Net: Dense Bundle Adjustment Network
BA-Net은 미분 가능한 특징-측정치 번들 보정 계층과 학습된 기반 깊이 맵을 통한 밀도 깊이 매개화를 도입하여 다중 뷰에서의 구조-from-motion(SfM)을 위한 엔드-투-엔드 학습을 가능하게 한다.
This paper introduces a network architecture to solve the structure-from-motion (SfM) problem via feature-metric bundle adjustment (BA), which explicitly enforces multi-view geometry constraints in the form of feature-metric error. The whole pipeline is differentiable so that the network can learn suitable features that make the BA problem more tractable. Furthermore, this work introduces a novel depth parameterization to recover dense per-pixel depth. The network first generates several basis depth maps according to the input image and optimizes the final depth as a linear combination of these basis depth maps via feature-metric BA. The basis depth maps generator is also learned via end-to-end training. The whole system nicely combines domain knowledge (i.e. hard-coded multi-view geometry constraints) and deep learning (i.e. feature learning and basis depth maps learning) to address the challenging dense SfM problem. Experiments on large scale real data prove the success of the proposed method.
연구 동기 및 목표
- 다중 뷰 기하 제약을 미분 가능한 BA 계층을 통해 학습 가능한 SfM 파이프라인에 통합한다.
- 번들 보정을 위한 최적화 강건성을 향상시키는 특징 표현을 학습한다.
- 엔드-투-엔드 학습이 가능하도록 Dense depth 매개화를 위한 компакт하고 학습 가능한 basis-depth 매개변수화를 개발한다.
제안 방법
- 다중 뷰에 걸친 특징-측정 오차를 최소화하는 미분 가능한 BA-레이어를 도입한다.
- BA 최적화를 위한 안정적이고 다중 규모 입력을 제공하기 위해 CNN 기반 특징 피라미드(학습된 특징)를 구성한다.
- Dense depth를 인코더-디코더 네트워크가 생성한 128개의 기반 깊이 맵의 선형 조합으로 매개화한다.
- MLP를 통해 LM 감쇠 인자 lambda를 예측하여 미분 가능한 Levenberg–Marquardt 최적화를 가능하게 한다.
- 특징 피라미드와 워핑을 따라 미분 가능 LM 단계로 코ars- to-fine 최적화를 수행하며 레벨당 5회(iterations), 총 15회.
- 포즈와 깊이에 대한 감독 손실로 백본, 특징 피라미드, 감쇠 예측기, 및 기반 깊이 생성기를 엔드-투-엔드로 학습한다.
실험 결과
연구 질문
- RQ1미분 가능한 특징-측정 BA 계층이 SfM를 위한 특징의 엔드-투-엔드 학습을 허용하면서 다중 뷰 기하 제약을 강제할 수 있는가?
- RQ2다중 뷰 상황에서 기반 깊이 매개변화 학습이 밀도 깊이 복구와 최적화 수렴을 개선하는가?
- RQ3BA에 맞춘 특징 학습이 Photometric/Geometric BA 및 기존 SfM 네트워크와 실제 데이터셋에서 어떻게 비교되는가?
주요 결과
| Method | Rotation (degree) | Translation (cm) | Translation (degree) | abs relative difference | sqr relative difference | RMSE (linear) | RMSE (log) | RMSE (log, scale inv.) |
|---|---|---|---|---|---|---|---|---|
| Ours | 1.018 | 3.39 | 20.577 | 0.161 | 0.092 | 0.346 | 0.214 | 0.184 |
| Ours* | 1.587 | 10.81 | 31.005 | 0.238 | 0.176 | 0.488 | 0.279 | 0.276 |
| DeMoN* | 3.791 | 15.5 | 31.626 | 0.231 | 0.520 | 0.761 | 0.289 | 0.284 |
| Photometric BA | 4.409 | 21.40 | 34.36 | 0.268 | 0.427 | 0.788 | 0.330 | 0.323 |
| Geometric BA | 8.56 | 36.995 | 39.392 | 0.382 | 0. - | 0.876 | 0.366 | 0.357 |
- BA-Net은 ScanNet와 KITTI 데이터셋에서 DeMoN, LS-Net 및 기존의 BA 베이스라인을 능가한다.
- 학습된 특징을 갖춘 특징-측정 BA가 RGB 또는 사전학습된 CNN 특징보다 더 매끄러운 목적함수 지형과 더 나은 수렴을 보인다.
- 밀도 깊이는 학습된 기반 맵의 선형 조합으로 효과적으로 생성되어 객체 경계와의 일관성을 향상시킨다.
- 학습된 감쇠 인자를 가진 미분 가능한 LM은 엔드-투-엔드 학습과 BA 과정을 통한 역전파를 가능하게 한다.
- KITTI에서 BA-Net은 감독/비감독 베이스라인 대비 우수한 카메라 궤적 및 깊이 지표를 달성한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.