[论文解读] SEGAR: Selective Enhancement for Generative Augmented Reality
SEGAR 引入一个两阶段框架,先生成带区域性编辑的未来增强帧,然后有选择地校正对安全至关重要的区域以与真实观测对齐,同时保留编辑,在驾驶场景中得到验证。
Generative world models offer a compelling foundation for augmented-reality (AR) applications: by predicting future image sequences that incorporate deliberate visual edits, they enable temporally coherent, augmented future frames that can be computed ahead of time and cached, avoiding per-frame rendering from scratch in real time. In this work, we present SEGAR, a preliminary framework that combines a diffusion-based world model with a selective correction stage to support this vision. The world model generates augmented future frames with region-specific edits while preserving others, and the correction stage subsequently aligns safety-critical regions with real-world observations while preserving intended augmentations elsewhere. We demonstrate this pipeline in driving scenarios as a representative setting where semantic region structure is well defined and real-world feedback is readily available. We view this as an early step toward generative world models as practical AR infrastructure, where future frames can be generated, cached, and selectively corrected on demand.
研究动机与目标
- 通过使预生成的增强未来具有时序连贯性,来推动生成世界模型作为实用的增强现实基础设施。
- 将基于扩散的世界模型与选择性校正机制相结合,使输出在关键区域对真实世界观测进行锚定。
- 证明选择性校正能够在动态驾驶场景中在提高安全关键保真度的同时保留有意的增强效果。
提出的方法
- 以 Vista 作为阶段 I 的生成风格化扩散驱动的世界模型,生成带区域性编辑的未来帧。
- 通过 VACE 基于去模糊填充,使用三个条件帧和十二帧目标,对阶段 I 进行端到端训练,结合语义掩码引导。
- 引入阶段 II 作为 LoRA 微调的校正阶段,在保留增强的同时使安全关键区域与真实观测对齐,采用空间掩蔽的潜在重构损失。
- 阶段 II 的条件化将 VAE 潜在地锚定(真实观测)与 CLIP 语义上下文(增强帧)解耦,以引导校正。
- 在区域之间设置缓冲区,避免在过渡处的重构损失,并使用区域特定损失的掩模下采样方法。
![Figure 1 : SEGAR system pipeline overview. In Stage I, we train a Vista-based generative stylizer to take three condition frames ( $t\in[1,3]$ ) and output future frames with desired augmented edits ( $t\in[4,12]$ ). In Stage II, the generative stylizer finetuned with LoRA takes the augmented future](https://ar5iv.labs.arxiv.org/html/2603.24541/assets/x1.png)
实验结果
研究问题
- RQ1生成性扩散模型如何在增强现实中产生具有区域性编辑的时序连贯未来?
- RQ2一个轻量的选择性校正阶段是否能够在不削弱有意增强的前提下,提高对真实世界观测的安全关键保真度?
- RQ3分阶段校正对安全关键区域的对齐效果与对驾驶场景中风格化编辑的保留之间有何影响?
- RQ4基于离线掩模的区域性损失在逐帧层面强制现实锚定的有效性如何?
主要发现
- 阶段 II 在安全关键区域的对齐显著提升(SSIM 从 0.770 提升至 0.943;LPIPS 从 0.397 降至 0.285),相较阶段 I。
- 增强区域能够保留原意的编辑,与阶段 I 的增强相比,SSIM 为 0.866、LPIPS 为 0.130。
- 在阶段 II 之后,关键区域的真实与增强漂移减小,非关键编辑仍保持视觉一致性。
- 定性结果显示经过修正的安全关键要素(如行人、车辆、道路标志)与真实观测对齐。
- 该方法为在如驾驶等实时场景中生成、缓存并有选择性校正未来 AR 帧提供了路径。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。