QUICK REVIEW

[논문 리뷰] SF3D-RGB: Scene Flow Estimation from Monocular Camera and Sparse LiDAR

Rajai Alhimdiat, Ramy Battrawy|arXiv (Cornell University)|2026. 02. 25.

Advanced Vision and Imaging인용 수 0

한 줄 요약

SF3D-RGB는 그래프 매칭을 통한 최적 운송과 정제 모듈을 사용하여 단일 RGB 특징과 희소 LiDAR 포인트를 엔드-투-엔드로 융합하여 희소 3D 장면 흐름을 추정합니다.

ABSTRACT

Scene flow estimation is an extremely important task in computer vision to support the perception of dynamic changes in the scene. For robust scene flow, learning-based approaches have recently achieved impressive results using either image-based or LiDAR-based modalities. However, these methods have tended to focus on the use of a single modality. To tackle these problems, we present a deep learning architecture, SF3D-RGB, that enables sparse scene flow estimation using 2D monocular images and 3D point clouds (e.g., acquired by LiDAR) as inputs. Our architecture is an end-to-end model that first encodes information from each modality into features and fuses them together. Then, the fused features enhance a graph matching module for better and more robust mapping matrix computation to generate an initial scene flow. Finally, a residual scene flow module further refines the initial scene flow. Our model is designed to strike a balance between accuracy and efficiency. Furthermore, experiments show that our proposed method outperforms single-modality methods and achieves better scene flow accuracy on real-world datasets while using fewer parameters compared to other state-of-the-art methods with fusion.

연구 동기 및 목표

다중 모달성(RGB 및 LiDAR)을 사용할 때 강건한 장면 흐름 추정을 동기화합니다.
희소 LiDAR 포인트 특징과 단일 모노 RGB 특징을 융합하는 경량 아키텍처를 제안합니다.
융합된 특징으로부터 초기 흐름을 계산하기 위해 그래프 매칭(최적 운송) 모듈을 활용합니다.
학습된 상관관계를 사용한 잔차 보정 모듈로 초기 흐름을 정제하여 정확도를 향상시킵니다.

제안 방법

연속 프레임의 RGB에서 피처 피라미드 네트워크를 통해 다중 스케일 RGB 특징을 추출합니다.
원시 포인트 구름에서 그래프 컨볼루션 층을 사용하여 포인트별 LiDAR 특징을 추출합니다.
가장 거친 RGB 특징과 LiDAR 특징을 후단 융합 단계에서 융합하여 포인트별 표현을 형성합니다.
코사인 유사도 기반의 비용과 KL 발산에 의한 오클루전 의 mass-relaxation을 활용한 Sinkhorn 기반 최적 운송 그래프 매칭으로 초기 장면 흐름을 계산합니다.
학습된 상관관계로 흐름을 보정하는 잔차 보정 네트워크로 초기 흐름을 정제합니다.

실험 결과

연구 질문

RQ1RGB 특징이 기능 수준에서 융합될 때 희소 LiDAR 기반의 장면 흐름을 개선할 수 있는가?
RQ2Sinkhorn 기반 최적 운송 그래프 매칭이 희소 포인트 구름에 대해 강건한 대응 관계를 제공하는가?
RQ3희소 장면 흐름에서 RGB와 LiDAR의 후단 융합이 조기 융합에 비해 정확도와 효율성 측면에서 어떤 차이가 있는가?
RQ4운송 최적화에서 엔트로피 정규화와 KL 릴랙스가 Occlusion 처리에 어떤 영향을 미치는가?

주요 결과

SF3D-RGB는 FT3D 및 실제 KITTI 파생 데이터셋에서 LiDAR-전용 기저모델보다 더 높은 정확도를 달성합니다.
RGB-LiDAR 융합은 조기 융합 및 LiDAR-전용 방법에 비해 EPE3D 및 EPE2D 지표를 향상시킵니다.
모델은 매개변수 수가 적고 표준 GPU에서 밀집 3D 장면 흐름 방법과 비교해 런타임이 경쟁적입니다.
싱크혼(Sinkhorn) 기반 그래프 매칭을 이용한 단일 스테이지 융합은 희소 포인트 구름(2048 포인트)에 대해 강력한 정확도-효율성 트레이드를 제공합니다.
KITTI 파생 데이터셋에서의 미세 조정은 LiDAR-전용 기저모델에 비해 성능을 더욱 향상시킵니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.