[论文解读] SalGAN: Visual Saliency Prediction with Generative Adversarial Networks
SalGAN 使用对抗性(GAN)损失与 BCE 内容损失相结合来预测视觉显著性图,在 MIT300 和 SALICON 上在多项指标上实现了最先进的结果。
We introduce SalGAN, a deep convolutional neural network for visual saliency prediction trained with adversarial examples. The first stage of the network consists of a generator model whose weights are learned by back-propagation computed from a binary cross entropy (BCE) loss over downsampled versions of the saliency maps. The resulting prediction is processed by a discriminator network trained to solve a binary classification task between the saliency maps generated by the generative stage and the ground truth ones. Our experiments show how adversarial training allows reaching state-of-the-art performance across different metrics when combined with a widely-used loss function like BCE. Our results can be reproduced with the source code and trained models available at https://imatge-upc.github.io/saliency-salgan-2017/.
研究动机与目标
- 用一种数据驱动的损失来激励显著性预测,使之与多种显著性指标对齐,而不是优化单一指标。
- 提出用于显著性图预测的编码器-解码器生成网络(SalGAN)。
- 引入判别器,以区分预测的显著性图和真实值,从而推动对抗训练。
- 证明对抗训练在若干显著性指标上提升了性能。
- 显示在训练过程中对显著性图进行下采样在不降低准确性的前提下能减少计算量。
提出的方法
- 编码器-解码器生成器(SalGAN)从 VGG-16 的前两个卷积块后初始化,对称解码器在输入分辨率下输出显著性图。
- 判别网络处理图像+显著性图对,以区分真实显著性图与生成的显著性图。
- 内容损失主要是基于像素级显著性概率的 BCE(每个像素输出 sigmoid)。
- 对抗损失将 BCE 与鼓励欺骗判别器的生成器损失项结合起来,使用 L(D(I, Ŝ), 1)。
- 训练从仅 BCE 的预训练(≈15 轮)开始,然后引入对抗训练,交替更新生成器和判别器。
- 在训练过程中对显著性图进行下采样(例如从 256x192 到 64x48),以在降低计算量的同时保持性能。
实验结果
研究问题
- RQ1对抗性训练能否在传统像素级损失之外提升视觉显著性预测?
- RQ2在训练中对显著性图进行下采样对预测准确性和计算效率有何影响?
- RQ3与最先进方法相比,SalGAN 在多种显著性评估指标上的表现如何?
- RQ4将 BCE 内容损失与对抗损失结合是否比单独使用 BCE 更稳定且收敛更好?
主要发现
| Metric | SALICON (validation) BCE | SALICON (validation) BCE/4 | SALICON (validation) GAN/4 | MIT300 (test) | Notes |
|---|---|---|---|---|---|
| sAUC | 0.752 | 0.755 | 0.773 | - | - |
| AUC-B | 0.825 | 0.831 | 0.859 | - | - |
| NSS | 2.473 | 2.511 | 2.560 | - | - |
| CC | 0.761 | 0.763 | 0.786 | - | - |
| IG | 0.712 | 0.825 | 1.243 | - | - |
| sAUC | 0.750 | 0.755 | 0.773 | - | - |
| AUC-B | 0.820 | 0.831 | 0.859 | - | - |
| NSS | 2.527 | 2.511 | 2.560 | - | - |
| CC | 0.764 | 0.763 | 0.786 | - | - |
| IG | 0.592 | 0.825 | 1.243 | - | - |
| sAUC | 0.754 | 0.757 | 0.773 | - | - |
| AUC-B | 0.827 | 0.833 | 0.859 | - | - |
| NSS | 2.503 | 2.580 | 2.560 | - | - |
| CC | 0.762 | 0.772 | 0.786 | - | - |
| IG | 0.831 | 1.067 | 1.243 | - | - |
| sAUC | - | - | - | 0.86 | - |
| AUC-J | - | - | - | 0.86 | - |
| AUC-B | - | - | - | 0.81 | - |
| NSS | - | - | - | 2.04 | - |
| KL | - | - | - | 1.07 | - |
| Notes | SALICON test results reference | Downsampled BCE vs GAN variants | MIT300 results reference | All metrics where shown; KL is reported for MIT300 benchmark |
- 相较于仅用 BCE,对抗训练在 SALICON 验证集和 MIT300 基准测试上提升了多种显著性指标。
- 在训练中将显著性图下采样到 1/4 的比例不会降低性能,甚至可能改善指标。
- BCE 内容损失提供了强有力的初始化并稳定了对抗训练;结合 BCE+GAN 的损失在大多数指标上实现更好的整体性能。
- SalGAN 在 SALICON 测试和 MIT300 上相对于最新的最先进方法在多项指标上达到有竞争力或更优的结果。
- 定性结果显示 SalGAN 能预测 BCE-only 模型未捕捉到的显著区域,并产生更平滑的显著性图。
- NSS 是对抗训练在所有实验中未持续改进性能的唯一指标。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。