[论文解读] SCENE: Semantic-aware Codec Enhancement with Neural Embeddings
SCENE 是一个轻量级的语义引导预处理框架,通过使用视觉-语言嵌入来调制组合卷积、并用可微分编解码器代理进行训练,在推理时作为实时独立前处理器运行,从而提升感知视频质量。
Compression artifacts from standard video codecs often degrade perceptual quality. We propose a lightweight, semantic-aware pre-processing framework that enhances perceptual fidelity by selectively addressing these distortions. Our method integrates semantic embeddings from a vision-language model into an efficient convolutional architecture, prioritizing the preservation of perceptually significant structures. The model is trained end-to-end with a differentiable codec proxy, enabling it to mitigate artifacts from various standard codecs without modifying the existing video pipeline. During inference, the codec proxy is discarded, and SCENE operates as a standalone pre-processor, enabling real-time performance. Experiments on high-resolution benchmarks show improved performance over baselines in both objective (MS-SSIM) and perceptual (VMAF) metrics, with notable gains in preserving detailed textures within salient regions. Our results show that semantic-guided, codec-aware pre-processing is an effective approach for enhancing compressed video streams.
研究动机与目标
- 在标准编解码器中激发感知质量差距并寻求语义感知的增强。
- 引入 SCENE,利用视觉-语言嵌入引导内容感知的恢复。
- 通过可微分的编解码器代理桥接训练-部署差距。
- 在高分辨率基准上展示实时性能与改进。
提出的方法
- 对输入帧进行下采样并通过 3x3 卷积层提取低层特征。
- 使用冻结的 SigLIP 2 编码器提取语义嵌入,并将其转换为通道维的卷积系数。
- 使用组装卷积,内容相关核被语义系数调制。
- 用可微分的 JPEG 代理进行训练以模拟编解码器失真,并优化多项损失。
- 推理阶段将 SCENE 作为独立的前处理器使用,不依赖编解码器代理。

实验结果
研究问题
- RQ1在标准编解码器(H.264/H.265/AV1)且不改变解码流水线的前提下,语义感知、编解码器感知的预处理是否能提升感知质量(VMAF)和显著区域的完整性?
- RQ2视觉-语言模型嵌入是否能有效指导相对于基线组装卷积的内容自适应恢复?
- RQ3使用可微分编解码器代理进行训练是否能在推理阶段对现实世界编解码器失真有更好的泛化能力?
主要发现
- SCENE 相较于 AsConvSR,在 H.264 的 VMAF BD-rate 有更大幅度的降低(−32.0% 对比 −29.4%)。
- 在 H.265 上,SCENE 的 VMAF BD-rate 降幅为 −37.4%,对比 AsConvSR 的 −33.9%。
- MS-SSIM BD-rate 变化较小且为正向(+6 至 +11%),表明在像素级退化有限的情况下获得感知提升。
- 对于 AV1,SCENE 可带来最高 +10.6 点的 VMAF 增益,但比特率的增加使结果超出仅编解码器区间,BD-rate 不可定义。
- SCENE 在低比特率条件下维持与 AsConvSR 相近的 MS-SSIM,同时提升感知指标。
- 在 RTX 4090 上,推理延迟约为每 1080p 帧 ~27.74 ms(约 36 帧/秒),支持实时部署。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。