QUICK REVIEW

[論文レビュー] Single-Eye View: Monocular Real-time Perception Package for Autonomous Driving

Haixi Zhang, Aiyinsi Zuo|arXiv (Cornell University)|Mar 22, 2026

Advanced Vision and Imaging被引用数 0

ひとこと要約

LRHPerceptionは、単一GPU上で29 FPSのリアルタイムモノクラ知覚を実現し、エンドツーエンドの効率と局所マッピングのディテールを統合します。

ABSTRACT

Amidst the rapid advancement of camera-based autonomous driving technology, effectiveness is often prioritized with limited attention to computational efficiency. To address this issue, this paper introduces LRHPerception, a real-time monocular perception package for autonomous driving that uses single-view camera video to interpret the surrounding environment. The proposed system combines the computational efficiency of end-to-end learning with the rich representational detail of local mapping methodologies. With significant improvements in object tracking and prediction, road segmentation, and depth estimation integrated into a unified framework, LRHPerception processes monocular image data into a five-channel tensor consisting of RGB, road segmentation, and pixel-level depth estimation, augmented with object detection and trajectory prediction. Experimental results demonstrate strong performance, achieving real-time processing at 29 FPS on a single GPU, representing a 555% speedup over the fastest mapping-based approach.

研究の動機と目的

標準ハードウェア上で、費用対効果の高いモノクラ知覚を自動運転に適用する動機づけ。
LRHPerceptionを提案し、単一カメラから物体追跡、軌道予測、道路セマンティクス、深度推定を統合。
モジュール間で情報を共有し、冗長な処理を削減。
最先端の局所マッピング手法に対するリアルタイム性能の向上を示す。

提案手法

RGB入力からマルチスケール特徴を抽出するSwin Transformerバックボーンを使用。
4つのタスクを1つのバックボーンで計算するため、モジュール間でバックボーン特徴を共有。
データアソシエーションを改善するため、カメラ動作認識に対応したC-BYTEを導入。
GRUエンコーダ/デコーダを持つCVAEベースの軌道予測器を用い、多モーダルな未来を推定。
Phi_8特徴量を用いた簡略化U-Netに基づく軽量な道路セグメンテーションブロックを実装。
粗く細く depth 推定を行う粗期-洗練型深度推定機を採用。
モジュールを複数データセットで学習するクロスデータセット学習を実施し、モジュール固有の損失をL = λ_det L_det + λ_seg L_seg + λ_depth L_depth + λ_traj L_trajとして組み合わせ。

Figure 1 : Innovation and architecture blueprint a) Paradigm of end-to-end solution b) Paradigm of camera-fusion for local map solution c) Paradigm of our LRHPerception package, extracts essences from monocular camera for cost-info trade-off.

実験結果

リサーチクエスチョン

RQ1単一カメラのLRHPerceptionは、リアルタイム（FPS）性能を標準ハードウェアで実現でき、追跡、軌道、セグメンテーション、深度の各タスクで競争力のある知覚精度を維持できるか。
RQ2単一のバックボーンと統合アーキテクチャの共有は、逐次タスクパイプラインと比較して冗長な計算を削減できるか。
RQ3カメラ動作補正（C-BYTE）と多タスク統合は、追跡の堅牢性と軌道予測精度にどのように影響するか。
RQ4提案された軽量ブロックと粗-洗練深度設計を用いると、道路セグメンテーションと深度推定の速度と精度にどの程度の向上があるか。
RQ5クロスデータセット学習は、モノクラ知覚のタスクに依存しないバックボーンを共同で最適化するのに有効か。

主な発見

LRHPerceptionは、モノクラ知覚で単一のRTX 3090 GPU上で29 FPSを達成。
この手法は、最速の局所マッピング手法と比較して555%の加速を示す。
C-BYTEはカメラ運動を補正することにより、関連付けの精度を改善し、MOTA/IDF1/IDPを向上させつつ遅延はほとんど生じない（約<4 ms）。
CVAEベースのエンコーダとGRUベースのデコーダによる軌道予測は、JAADとPIEデータセットでの処理を高速化し、速度と精度の両面で最近の手法を上回る。
Phi_8特徴量上の軽量なU-Net風ブロックを用いた道路セグメンテーションは、普及セグメンテーションモデルと比較して速度が優れており高いmIOUを達成。
粗-洗練設計の深度推定は、改良C2f層を用い、Leadingな代替手法より大幅な速度向上を達成しつつ精度を維持。

Figure 2 : Granular Model Structure.1 Design of convolution decoder, object tracking, trajectory prediction, and depth estimation; magnify for details. BTAE mechanism in Algorithm 1. Remaining components are shown in Fig. 3.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。