[论文解读] Stronger Semantic Encoders Can Harm Relighting Performance: Probing Visual Priors via Augmented Latent Intrinsics
论文表明更强的语义预训练编码器可能降低重光质量,并提出 Augmented Latent Intrinsics (ALI) 将密集像素对齐的先验与潜在内在表示融合,在具有挑战性的材料上实现基于扩散的最新重光方法。
Image-to-image relighting requires representations that disentangle scene properties from illumination. Recent methods rely on latent intrinsic representations but remain under-constrained and often fail on challenging materials such as metal and glass. A natural hypothesis is that stronger pretrained visual priors should resolve these failures. We find the opposite: features from top-performing semantic encoders often degrade relighting quality, revealing a fundamental trade-off between semantic abstraction and photometric fidelity. We study this trade-off and introduce Augmented Latent Intrinsics (ALI), which balances semantic context and dense photometric structure by fusing features from a pixel-aligned visual encoder into a latent-intrinsic framework, together with a self-supervised refinement strategy to mitigate the scarcity of paired real-world data. Trained only on unlabeled real-world image pairs and paired with a dense, pixel-aligned visual prior, ALI achieves strong improvements in relighting, with the largest gains on complex, specular materials. Project page: https:\\augmented-latent-intrinsics.github.io
研究动机与目标
- 将重光作为对视觉表示的探针来驱动研究,理解语义抽象与光度保真之间的取舍.
- 研究预训练视觉先验在与潜在内在表示融合时对重光性能的影响。
- 开发 ALI,将密集视觉先验与潜在内在表示在分阶段、自监督训练流程中结合。
- 在真实世界、开放世界数据集上评估 ALI,以评估对具有挑战性的材料和光照条件的泛化能力。
提出的方法
- 阶段 I:通过一个冻结的视觉编码器,将像素对齐的语义特征注入潜在内在表示中,使用投影层进行融合。
- 阶段 II:对基于扩散的解码器进行微调,使其与增强后的内在表示对齐,在去噪过程中以增强后的表示为条件进行引导。
- 阶段 III:通过伪重光对(一个 Lighting Zoo)进行自我改进,以在真实世界图像上提高鲁棒性,而无需额外监督。
- 训练在真实图像对(MIT MIIW 和 BigTime)上分三阶段进行,配备轻量级融合适配器和渐进式训练计划。
- 在不同骨干网络之间的对比显示 MAE 和 RADIOv2.5 相对于 CLIP/DINO 在此任务上更具优势,突出像素对齐、基于重建的先验的重要性。
实验结果
研究问题
- RQ1当与潜在内在表示结合时,较强的语义先验是否会提升或降低图像重光性能?
- RQ2将密集视觉先验与潜在内在表示融合是否能够在语义上下文与光度保真之间取得平衡,以实现可靠的重光?
- RQ3分阶段训练流程(增强、对齐、自我改进)对重光质量与泛化有何影响?
- RQ4哪种视觉骨干在与潜在内在表示结合时最有利于重光?
- RQ5ALI 在具有挑战性的材料(光泽、镜面、金属)以及自然场景中的表现如何?
主要发现
- 更强的语义编码器往往会降低重光性能,揭示了语义–光度的权衡。
- 密集、像素对齐的编码器(如 RADIOv2.5)结合潜在内在表示,能够在保持上下文的同时提升对细粒度细节的重现能力。
- 阶段 I 的增强有助于材料感知的重光;阶段 II 使解码器与增强后的内在表示对齐;阶段 III 的自我改进提高了在野外场景的鲁棒性。
- ALI 在 MIIW 跨场景的开源扩散方法中实现了最先进的 RMSE/SSIM,且在光泽/镜面材料上有显著提升。
- 在野外图像中,ALI 相较基线保留材料细节并改善了定向光照传输。
- 几乎无需少量样本或完全监督;ALI 能从未标记的真实世界成对图像中学习。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。