[논문 리뷰] Differentiable Registration of Images and LiDAR Point Clouds with VoxelPoint-to-Pixel Matching
이 논문은 Differentiable PnP 솔버를 사용하여 자세 분포를 엔드-투-엔드 학습 중에 감독하는 구조화된 크로스-모달 잠재 공간을 학습하기 위해 VoxelPoint-to-Pixel Matching을 소개한다. 이는 3D 데이터를 보셀(voxel)과 포인트로 표현하고, 픽셀-보셀/포인트 대응을 트리플렛 네트워크를 통해 학습하며, KITTI와 nuScenes에서 최첨단 결과를 달성하고 높은 효율성을 보인다.
Cross-modality registration between 2D images from cameras and 3D point clouds from LiDARs is a crucial task in computer vision and robotic. Previous methods estimate 2D-3D correspondences by matching point and pixel patterns learned by neural networks, and use Perspective-n-Points (PnP) to estimate rigid transformation during post-processing. However, these methods struggle to map points and pixels to a shared latent space robustly since points and pixels have very different characteristics with patterns learned in different manners (MLP and CNN), and they also fail to construct supervision directly on the transformation since the PnP is non-differentiable, which leads to unstable registration results. To address these problems, we propose to learn a structured cross-modality latent space to represent pixel features and 3D features via a differentiable probabilistic PnP solver. Specifically, we design a triplet network to learn VoxelPoint-to-Pixel matching, where we represent 3D elements using both voxels and points to learn the cross-modality latent space with pixels. We design both the voxel and pixel branch based on CNNs to operate convolutions on voxels/pixels represented in grids, and integrate an additional point branch to regain the information lost during voxelization. We train our framework end-to-end by imposing supervisions directly on the predicted pose distribution with a probabilistic PnP solver. To explore distinctive patterns of cross-modality features, we design a novel loss with adaptive-weighted optimization for cross-modality feature description. The experimental results on KITTI and nuScenes datasets show significant improvements over the state-of-the-art methods. The code and models are available at https://github.com/junshengzhou/VP2P-Match.
연구 동기 및 목표
- 다이나믹한 도메인 간 차이로 인해 MLP 기반 포인트 특징과 CNN 기반 이미지 특징 간의 도메인 차이로 인한 로버스트한 크로스-모달 등록의 어려움을 동기화하고 해결한다.
- 3D 요소를 보셀과 포인트의 조합으로 표현하여 2D 픽셀 표현과의 정렬을 가능하게 하는 트리플렛 네트워크를 제안한다.
- 적응 가중 최적화를 통해 구조화된 크로스-모달 잠재 공간을 학습하여 강건한 2D-3D 대응을 확립한다.
- 엔드-투-엔드 학습 중에 포즈 분포를 직접 감독하기 위해 differentiable probabilistic PnP 솔버를 도입한다.
- KITTI와 nuScenes에서 최첨단 방법과 비교하여 우수한 성능을 보여주고 효율성과 ablations를 분석한다.
제안 방법
- Voxel/Point/Pixel 가지를 갖는 트리플렛 네트워크를 도입하여 정렬된 2D/3D 특징을 생성한다.
- 3D 요소를 고해상도 희소 보셀과 포인트의 조합으로 표현하고, 3D 포인트로의 트라이리니어 인터폴레이션을 사용한다.
- 코사인 유사도를 통해 2D 특징을 3D 특징과 공유 잠재 공간으로 투사하여 크로스-모달 매칭을 수행한다.
- 적응 가중 최적화를 사용하여 크로스-모달 패턴을 구분하고 어려운 네거티브 샘플에 대해 강건성을 높인다.
- 매칭 전 아웃라이어를 제거하기 위해 교차 모달 간의 영역 교차 감지(intersection-region detection)를 구현한다.
- KL 발산을 예측 포즈 분포와 ground-truth 포즈 분포 간의 차이를 최소화함으로써 end-to-end 학습을 돕는 differentiable probabilistic PnP 솔버를 채택하고, MC 샘플링과 포즈 손실 및 학습용 differentiable PnP 확장을 더한다.
실험 결과
연구 질문
- RQ1구조화된 크로스-모달 잠재 공간이 2D 픽셀과 3D 포인트/보셀 특징을 단일화하여 신뢰할 수 있는 2D-3D 매칭을 가능하게 하는가?
- RQ2보셀화 후 3D 특징 정합의 정확성이 포인트 표현과의 결합으로 향상되는가?
- RQ3엔드-투-엔드 differentiable PnP 감독이 2D-3D 등록에서 포즈 추정의 성능을 사후 PnP보다 향상시키는가?
- RQ4크로스-모달 매칭을 위한 적응 가중 최적화가 표준 대비/트리플렛 손실보다 효과적인가?
- RQ5VP2P-Match를 적용했을 때 표준 자율주행 데이터셋(KITTI 및 nuScenes)에서의 효율성과 정확도 개선은 어떠한가?
주요 결과
| 방법 | RTE (KITTI) ↓ | RRE (KITTI) ↓ | Acc. KITTI ↑ | RTE (nuScenes) ↓ | RRE (nuScenes) ↓ | Acc. nuScenes ↑ |
|---|---|---|---|---|---|---|
| Grid Cls. + PnP [26] | 3.64 ± 3.46 | 19.19 ± 28.96 | 11.22 | 3.02 ± 2.40 | 12.66 ± 21.01 | 2.45 |
| DeepI2P (3D) [26] | 4.06 ± 3.54 | 24.73 ± 31.69 | 3.77 | 2.88 ± 2.12 | 20.65 ± 12.24 | 2.26 |
| DeepI2P(2D) [26] | 3.59 ± 3.21 | 11.66 ± 18.16 | 25.95 | 2.78 ± 1.99 | 4.80 ± 6.21 | 38.10 |
| CorrI2P [36] | 3.78 ± 65.16 | 5.89 ± 20.34 | 72.42 | 3.04 ± 60.76 | 3.73 ± 9.03 | 49.00 |
| Ours | 0.75 ± 1.13 | 3.29 ± 7.99 | 83.04 | 0.89 ± 1.44 | 2.15 ± 7.03 | 88.33 |
- 제안된 VP2P-Match는 KITTI와 nuScenes에서 최첨단 대비 등록 정확도(RTE, RRE, 및 Acc.)를 달성한다.
- RTX 3090에서 프레임당 포즈 추론 시간이 0.19초로 현저히 단축되어 속도 측면에서 기존 방법을 능가한다.
- 3D 데이터를 보셀과 포인트의 조합으로 표현하고 보셀화된 CNN을 활용하면 구조화된 크로스-모달 잠재 공간이 형성된다.
- 적응 가중 최적화는 표준 대비 손실에 비해 크로스-모달 서술자 학습과 매칭의 견고성을 향상시킨다.
- differentiable probabilistic PnP 솔버를 사용한 엔드-투-엔드 학습은 포즈 분포를 직접 감독하여 더 정확하고 안정적인 등록을 제공한다.
- 아블레이션 연구에서 보셀 가지와 포인트 가지 모두 성능에 기여하며, 특히 보셀 가지의 영향이 큰 것으로 나타난다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.