[論文レビュー] PEPR: Privileged Event-based Predictive Regularization for Domain Generalization
PEPRは訓練時に特権イベントデータを使用して潜在空間予測正則化を介して堅牢なRGBモデルを訓練し、テスト時にイベントを必要とせずにドメイン一般化を向上させる。
Deep neural networks for visual perception are highly susceptible to domain shift, which poses a critical challenge for real-world deployment under conditions that differ from the training data. To address this domain generalization challenge, we propose a cross-modal framework under the learning using privileged information (LUPI) paradigm for training a robust, single-modality RGB model. We leverage event cameras as a source of privileged information, available only during training. The two modalities exhibit complementary characteristics: the RGB stream is semantically dense but domain-dependent, whereas the event stream is sparse yet more domain-invariant. Direct feature alignment between them is therefore suboptimal, as it forces the RGB encoder to mimic the sparse event representation, thereby losing semantic detail. To overcome this, we introduce Privileged Event-based Predictive Regularization (PEPR), which reframes LUPI as a predictive problem in a shared latent space. Instead of enforcing direct cross-modal alignment, we train the RGB encoder with PEPR to predict event-based latent features, distilling robustness without sacrificing semantic richness. The resulting standalone RGB model consistently improves robustness to day-to-night and other domain shifts, outperforming alignment-based baselines across object detection and semantic segmentation.
研究の動機と目的
- 視覚知覚タスクにおけるドメインシフトへの頑健性を動機づける。
- 訓練時のみ利用可能な特権情報(イベントデータ)を活用してRGB表現を導く。
- 直接的なクロスモーダル整合を避け、共有潜在空間で予測正則化を用いる。
- 推論時には特権モダリティからの頑健性を継承する独立したRGBモデルを生成する。
提案手法
- 主な視覚タスクのためにRGBエンコーダ f_θ^I とタスクヘッド h_θ′^I を使用する。
- 特権イベントエンコーダ f_γ^E と予測器 g_φ を導入してJEPA風潜在予測目的を形成する。
- L_PEPR = λ_task L_task + λ_feat L_feat を定義してタスク性能と潜在予測の共同最適化を行う。
- M 個のイベント潜在パッチ p_m をRGB由来の文脈から予測することで L_feat を構築し、Transformerデコーダを用いて予測パッチ hat{p}_m を生成し、L_feat = (1/M) ∑_m ||hat{p}_m - p_m||^2 を計算する。
- イベント活動の異なる領域から標的パッチ p_m をサンプリングして、モーション認識と安定な領域表現を促進する。
- テスト時にはイベントエンコーダと予測器を破棄し、最終モデルはRGB入力のみを使用する。

実験結果
リサーチクエスチョン
- RQ1訓練時のみ利用可能な特権イベントデータは、検出とセマンティングの単一モダリティRGBモデルのドメイン一般化を改善できるか?
- RQ2予測潜在空間転送(JEPA風)は、特権情報を蒸留する際に直接的な特徴整列よりも効果的か?
- RQ3日夜シフトやその他の厳しい条件下でのPEPRは検出とセマンティングのベンチマークでどのように性能を示すか?
- RQ4PEPRはドメイン内性能も向上させる有益な正則化器として機能するか?
主な発見
- PEPRは検出とセマンティングタスクにおいて直接的な特徴整列ベースラインよりもドメインシフトに対する頑健性が強い。
- Hard-DSEC-DETではRGBオンリーのDETRが 20.0 mAP50:95 を達成するが、PEPRは 21.5 および 42.1 mAP50 を改善し、L2ベースライン(19.2 mAP50:95, 40.1 mAP50)を上回る。
- FRED Day-to-NightではPEPRは 22.22 mAP50:95 および 9.23 mAP50 を分割で達成し、L2およびRGBベースラインを上回りNight、Pitch Black、Sunset条件での頑健性を示す。
- Cityscapes AdverseではSegFormer PEPRが平均63.1 mIoU、L2が62.5に対して条件横断性能が向上;Dark ZurichではSegFormer PEPRが 63.1 mIoU、L2が 62.5 に対して改善。
- PEPRはRGBベースラインよりもドメイン内性能も改善(例:FRED Canonicalの検出DETRで 11.94 mAP50:95 対 11.37 のL2)。
- 予測目的は直接的なL2整列よりも優れており、特に日夜の厳しいシフト下でL2が失敗または性能が低下する状況で顕著。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。