[논문 리뷰] Propagating Confidences through CNNs for Sparse Data Regression
대수적으로 제약된 정규화 컨볼루션 계층을 도입하여 CNN에서 희소 입력을 처리하고 층을 통해 연속 신뢰도를 전파함으로써 깊이 완성의 픽셀별 신뢰도 맵과 밀집 출력을 가능하게 하며 매개변수를 크게 줄인다.
In most computer vision applications, convolutional neural networks (CNNs) operate on dense image data generated by ordinary cameras. Designing CNNs for sparse and irregularly spaced input data is still an open problem with numerous applications in autonomous driving, robotics, and surveillance. To tackle this challenging problem, we introduce an algebraically-constrained convolution layer for CNNs with sparse input and demonstrate its capabilities for the scene depth completion task. We propose novel strategies for determining the confidence from the convolution operation and propagating it to consecutive layers. Furthermore, we propose an objective function that simultaneously minimizes the data error while maximizing the output confidence. Comprehensive experiments are performed on the KITTI depth benchmark and the results clearly demonstrate that the proposed approach achieves superior performance while requiring three times fewer parameters than the state-of-the-art methods. Moreover, our approach produces a continuous pixel-wise confidence map enabling information fusion, state inference, and decision support.
연구 동기 및 목표
- 비전 과제에서 희소하고 불규칙한 입력 데이터에 대한 회귀 문제의 도전 과제를 해결한다.
- 연속 신뢰도를 층 간에 전파하는 대수적으로 제약된 정규화 컨볼루션 연산자를 개발한다.
- 가중치에 비음수 제약을 적용하여 신뢰도의 유효성을 유지하고 데이터 오차와 출력 신뢰도 간의 손실 균형을 설계한다.
- 가중치를 공유하는 다중 스케일 네트워크를 제안하여 수용 영역을 개선하면서도 컴팩트를 유지한다.
- 매개변수가 훨씬 적은 수로 KITTI에서 최첨단 깊이 완성을 시연하고 픽셀 단위의 신뢰도 맵을 제공하여 융합 및 의사결정 지원을 한다.
제안 방법
- 희소 입력 처리를 위한 신뢰도 마스크를 갖춘 정규화 컨볼루션 프레임워크를 사용한다.
- 학습 중에 적용 가능성(로컬라이제이션) 함수를 비음수로 학습시키기 위해 differentiable 비선형성(예: softplus)을 사용한다.
- 전방향 패스 정의: Z = (주변 이웃의 합 Z_prev * C_prev * Gamma(W)) / (주변 이웃의 합 C_prev * Gamma(W)) + eps.
- 신뢰도 전파를 주변 이웃의 합과 Gamma(W)의 기하학적 비율로 수행하며 C_out = (주변 이웃의 합 C_prev * Gamma(W) + eps) / (주변 이웃의 합 Gamma(W))로 구현한다.
- 출력 신뢰를 최대화하되 폭주를 방지하기 위해 데이터 오차(Huber 노름)와 에포크 증가에 따라 커지는 신뢰도 항을 결합한 손실을 도입한다.
- 신뢰도 맵을 활용한 정규화된 컨볼루션으로 계층 간 가중치를 공유하고 신뢰도 맵을 활용한 다중 스케일 융합을 채택한다.
실험 결과
연구 질문
- RQ1희소 데이터 회귀 작업에서 CNN 층을 통해 연속 신뢰도를 전파할 수 있는가?
- RQ2대수적으로 제약된 정규화 컨볼루션이 매개변수 수를 줄이면서 희소 입력으로 깊이 완성을 개선할 수 있는가?
- RQ3신뢰도 정보를 활용한 다중 스케일 융합이 재구성 정확도와 불확실성 추정에 미치는 영향은 무엇인가?
- RQ4KITTI에서 정확도와 모델 크기 면에서 제안된 방법이 최첨단 희소 깊이 완성 방법과 어떻게 비교되는가?
주요 결과
| 방법 | MAE [m] | RMSE [m] | MRE | delta<1.01 | delta<1.01^2 | delta<1.01^3 | #Params | 출력 신뢰도 |
|---|---|---|---|---|---|---|---|---|
| CNN | 0.78 | 2.97 | - | - | - | - | 2.5e4 | No |
| CNN+mask | 0.79 | 2.24 | - | - | - | - | 2.5e4 | No |
| SparseConv | 0.58 | 1.80 | 0.035 | 0.33 | 0.65 | 0.82 | 2.5e4 | No |
| Sparse-To-Dense | 0.70 | 1.68 | 0.039 | 0.21 | 0.41 | 0.59 | 3.4e6 | No |
| DCCS-1-Layer | 0.83 | 2.77 | 0.054 | 0.30 | 0.47 | 0.59 | 1.0e3 | No |
| DCCS-2-Layers | 0.47 | 1.45 | 0.028 | 0.41 | 0.68 | 0.80 | 1.8e3 | No |
| DCCS-3-Layers | 0.43 | 1.35 | 0.024 | 0.48 | 0.73 | 0.83 | 1.7e3 | No |
| NConv-1-Scale(16ch) | 0.40 | 1.58 | 0.022 | 0.60 | 0.81 | 2.5e4 | Yes | |
| NConv-1-Scale(4ch) | 0.42 | 1.59 | 0.022 | 0.59 | 0.80 | 2.0e3 | Yes | |
| NConv-HMS | 0.38 | 1.37 | 0.021 | 0.60 | 0.81 | 4.8e2 | Yes | |
| NConv-SF-STD | 0.53 | 3.0 | 0.037 | 0.59 | 0.80 | 4.8e2 | No |
- 제안된 NConv-HMS 아키텍처는 KITTI 깊이 벤치마크에서 매개변수 480개만으로 최첨단 결과를 달성한다.
- 단일 스케일 NConv-1-Scale(16ch)은 MAE, MRE, delta 지표에서 유사한 방법보다 우수하여 연속 신뢰도가 이진 마스크보다 이점을 보임.
- 컴팩트한 NConv-1-Scale(4ch)은 매개변수 수를 크게 줄이면서도 경쟁력 있는 성능을 유지한다.
- 다중 스케일 융합과 신뢰도 인식 정규화 컨볼루션(NConv-HMS)은 최적 다층 방법에 근접한 RMSE를 보여주면서도 매개변수 수를 현저히 낮게 유지한다.
- 신뢰도 기반 스케일 융합(NConv-HMS)은 신뢰도 정보를 무시하는 표준 융합(NConv-SF-STD)보다 현저히 우수하다.
- 테스트 세트에서 제안 방법은 DCCS-3-Layers를 포함한 발표된 최첨단 방법들을 전체 성능에서 능가한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.