QUICK REVIEW

[論文レビュー] SF3D-RGB: Scene Flow Estimation from Monocular Camera and Sparse LiDAR

Rajai Alhimdiat, Ramy Battrawy|arXiv (Cornell University)|Feb 25, 2026

Advanced Vision and Imaging被引用数 0

ひとこと要約

SF3D-RGBは、単眼RGB特徴とスパースLiDAR点を統合し、最適輸送によるグラフマッチングとリファインメントモジュールを用いてスパース3Dシーンフローを推定するエンドツーエンドの融合モデル。

ABSTRACT

Scene flow estimation is an extremely important task in computer vision to support the perception of dynamic changes in the scene. For robust scene flow, learning-based approaches have recently achieved impressive results using either image-based or LiDAR-based modalities. However, these methods have tended to focus on the use of a single modality. To tackle these problems, we present a deep learning architecture, SF3D-RGB, that enables sparse scene flow estimation using 2D monocular images and 3D point clouds (e.g., acquired by LiDAR) as inputs. Our architecture is an end-to-end model that first encodes information from each modality into features and fuses them together. Then, the fused features enhance a graph matching module for better and more robust mapping matrix computation to generate an initial scene flow. Finally, a residual scene flow module further refines the initial scene flow. Our model is designed to strike a balance between accuracy and efficiency. Furthermore, experiments show that our proposed method outperforms single-modality methods and achieves better scene flow accuracy on real-world datasets while using fewer parameters compared to other state-of-the-art methods with fusion.

研究の動機と目的

複数モダリティ（RGBとLiDAR）を用いた頑健なシーンフロー推定を動機付ける。
単眼RGB特徴とスパースLiDAR点特徴を融合した軽量アーキテクチャを提案し、スパース3Dシーンフローを推定する。
融合特徴から初期フローを計算するグラフマッチング（最適輸送）モジュールを活用する。
初期フローを残差リファインメントモジュールで精度向上のために修正する。

提案手法

連続するRGBフレームからFeature Pyramid Networkを用いて多段階RGB特徴を抽出する。
生の点群に対してグラフ畳み込み層を用いてLiDAR特徴を各点ごとに抽出する。
最も粗いRGB特徴とLiDAR特徴を後方統合（late fusion）で結合し、点ごとの表現を形成する。
コサイン類似度ベースのコストとKLダイバージェンスによるocclusion-awareマス緩和を用いた最適輸送（Sinkhorn）に基づくグラフマッチングモジュールで初期シーンフローを計算する。
初期フローを学習された相関を用いて補正する残差リファインメントネットワークでリファインする。

実験結果

リサーチクエスチョン

RQ1RGB特徴を特徴レベルで融合するとスパースLiDARベースのシーンフローは改善されるか。
RQ2Sinkhornベースの最適輸送グラフマッチングはスパース点群に対して堅牢な対応を提供するか。
RQ3RGBとLiDARの後方融合（late fusion）は、スパースシーンフローの精度と効率の点で早期融合と比較してどうか。
RQ4輸送最適化におけるエントロピー正則化とKL緩和は、遮蔽（occlusion）への対応にどのような影響を与えるか。

主な発見

SF3D-RGBはFT3Dおよび実世界のKITTI由来データセット上でLiDARのみのベースラインより高精度を達成する。
RGB–LiDAR融合は早期融合およびLiDARのみ手法に対してEPE3DとEPE2Dの指標を改善する。
モデルはパラメータ数が少なく、標準的なGPU上での実行時間が密結合な3Dシーンフロー手法と競合的である。
単一段の融合とSinkhornベースのグラフマッチングは、スパース点群（2048点）に対して強い精度-効率のトレードオフを示す。
KITTI由来データセットでのファインチューニングはLiDARのみベースラインに比べて性能をさらに向上させる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。