Skip to main content
QUICK REVIEW

[论文解读] PEPR: Privileged Event-based Predictive Regularization for Domain Generalization

Gabriele Magrini, Federico Becattini|arXiv (Cornell University)|Feb 4, 2026
Domain Adaptation and Few-Shot Learning被引用 0
一句话总结

PEPR 在训练阶段使用特权事件数据,通过潜在空间预测正则化训练鲁棒的 RGB 模型,在测试时不需要事件数据即可实现领域泛化。

ABSTRACT

Deep neural networks for visual perception are highly susceptible to domain shift, which poses a critical challenge for real-world deployment under conditions that differ from the training data. To address this domain generalization challenge, we propose a cross-modal framework under the learning using privileged information (LUPI) paradigm for training a robust, single-modality RGB model. We leverage event cameras as a source of privileged information, available only during training. The two modalities exhibit complementary characteristics: the RGB stream is semantically dense but domain-dependent, whereas the event stream is sparse yet more domain-invariant. Direct feature alignment between them is therefore suboptimal, as it forces the RGB encoder to mimic the sparse event representation, thereby losing semantic detail. To overcome this, we introduce Privileged Event-based Predictive Regularization (PEPR), which reframes LUPI as a predictive problem in a shared latent space. Instead of enforcing direct cross-modal alignment, we train the RGB encoder with PEPR to predict event-based latent features, distilling robustness without sacrificing semantic richness. The resulting standalone RGB model consistently improves robustness to day-to-night and other domain shifts, outperforming alignment-based baselines across object detection and semantic segmentation.

研究动机与目标

  • 在视觉感知任务中推动对域迁移的鲁棒性。
  • 利用仅在训练阶段可用的特权信息(事件数据)来引导 RGB 表征。
  • 避免直接的跨模态对齐,而在共享潜在空间中使用预测正则化。
  • 在推理时产生独立的 RGB 模型,并继承特权模态的鲁棒性。

提出的方法

  • 使用带任务头 h_theta'^I 的 RGB 编码器 f_theta^I 进行主视觉任务。
  • 引入特权事件编码器 f_gamma^E 和预测器 g_phi,形成 JEPA 风格的潜在预测目标。
  • 定义 L_PEPR = lambda_task L_task + lambda_feat L_feat,联合优化任务性能和潜在预测。
  • 通过从 RGB 派生的上下文中预测 M 个事件潜在补丁 p_m,使用 Transformer 解码器生成预测补丁 hat{p}_m,并计算 L_feat = (1/M) sum_m ||hat{p}_m - p_m||^2。
  • 从活动水平不同的区域采样目标补丁 p_m,以促使学习具运动感知和稳定区域的表示。
  • 在测试时丢弃事件编码器和预测器,使最终模型仅使用 RGB 输入。
(a)
(a)

实验结果

研究问题

  • RQ1仅在训练阶段可用的特权事件数据是否能提升单模态 RGB 模型在检测与分割任务上的域泛化能力?
  • RQ2在蒸馏特权信息时,预测性潜在空间迁移(JEPA 风格)是否比直接特征对齐更有效?
  • RQ3PEPR 在昼夜等条件变化下在检测与分割基准上如何表现?
  • RQ4PEPR 是否能作为有益的正则化器,同时提升原域内性能?

主要发现

  • 与直接特征对齐基线相比,PEPR 在检测与分割任务上对域迁移具有更强的鲁棒性。
  • 在 Hard-DSEC-DET 上,RGB-only DETR 的 mAP50:95 为 20.0;PEPR 提升至 21.5,mAP50 达到 42.1,优于 L2 基线的 19.2 mAP50:95、40.1 mAP50。
  • 在 FRED Day-to-Night 条件下,PEPR 的 mAP50:95 为 22.22,mAP50 为 9.23,覆盖所有分割,超过 L2 与 RGB 基线,在 Night、Pitch Black、Sunset 条件下表现稳健。
  • 在 Cityscapes Adverse 条件下,SegFormer PEPR 的平均 mIoU 为 63.1,胜过 L2 的 62.5,显示跨条件性能提升;在 Dark Zurich 上,SegFormer PEPR 提升到 63.1 mIoU,超过 L2 的 62.5。
  • PEPR 也提升了在域内的性能,相较 RGB 基线(例如 FRED Canonical 的 DETR:11.94 mAP50:95 vs L2 的 11.37)。
  • 预测目标在某些昼夜极端变化下优于直接的 L2 对齐,尤其是在昼夜极端切换时 L2 可能失效或性能下降。
(b)
(b)

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。