Skip to main content
QUICK REVIEW

[论文解读] DUT-LFSaliency: Versatile Dataset and Light Field-to-RGB Saliency Detection

Yongri Piao, Zhengkun Rong|arXiv (Cornell University)|Dec 30, 2020
Visual Attention and Saliency Detection参考文献 73被引用 23
一句话总结

本文提出了 DUT-LFSaliency,一个大规模光场数据集(DUTLF-V2),包含跨 102 个类别的 4,204 个样本,并提出了一种非对称双流网络用于光场到 RGB 的显著性检测。Focal 流通过定制模块利用聚焦切片,在桌面设备上实现了最先进性能;而 RGB 流采用三种蒸馏方案,在移动设备上实现了 83% 的模型尺寸减小和 5 倍的推理速度提升,同时具备强迁移能力,可应用于 RGB 显著性模型。

ABSTRACT

Light field data exhibit favorable characteristics conducive to saliency detection. The success of learning-based light field saliency detection is heavily dependent on how a comprehensive dataset can be constructed for higher generalizability of models, how high dimensional light field data can be effectively exploited, and how a flexible model can be designed to achieve versatility for desktop computers and mobile devices. To answer these questions, first we introduce a large-scale dataset to enable versatile applications for RGB, RGB-D and light field saliency detection, containing 102 classes and 4204 samples. Second, we present an asymmetrical two-stream model consisting of the Focal stream and RGB stream. The Focal stream is designed to achieve higher performance on desktop computers and transfer focusness knowledge to the RGB stream, relying on two tailor-made modules. The RGB stream guarantees the flexibility and memory/computation efficiency on mobile devices through three distillation schemes. Experiments demonstrate that our Focal stream achieves state-of-the-arts performance. The RGB stream achieves Top-2 F-measure on DUTLF-V2, which tremendously minimizes the model size by 83% and boosts FPS by 5 times, compared with the best performing method. Furthermore, our proposed distillation schemes are applicable to RGB saliency models, achieving impressive performance gains while ensuring flexibility.

研究动机与目标

  • 为解决光场显著性检测缺乏全面、大规模数据集的问题,以支持在 RGB、RGB-D 和光场输入之间的泛化能力。
  • 设计一种模型,能够高效利用高维光场数据,同时保持低计算和内存开销,以实现移动设备上的部署。
  • 通过有效的蒸馏方案,实现从基于光场的教师网络到轻量化基于 RGB 的学生网络的知识迁移。
  • 开发一种多功能框架,在桌面设备上保持高性能的同时,确保在移动设备上的高效性与灵活性。

提出的方法

  • 提出 DUTLF-V2,一个大规模基准数据集,包含 4,204 个真实世界光场样本,覆盖 102 个类别,包含 RGB、深度、多视角和聚焦堆栈数据。
  • 设计非对称双流网络:Focal 流通过新颖的多聚焦度表征模块(MFRM)和多聚焦度筛选模块(MFSM)处理完整光场数据,实现高性能。
  • 采用三种蒸馏方案——多聚焦度蒸馏(MFD)、注意力聚焦度蒸馏(AFD)和筛选聚焦度蒸馏(SFD)——将知识从 Focal 流迁移至基于 RGB 的学生网络。
  • 学生网络仅在 RGB 输入上进行训练,无需使用聚焦切片,实现了极高的效率,且参数开销极小。
  • 引入轻量化、参数高效的模块,为学生网络增加的计算成本可忽略不计。
  • 将蒸馏方案应用于现有 RGB 显著性模型(如 R3Net、SCRN、CPD),证明了其迁移能力与性能提升,且无需修改网络架构。

实验结果

研究问题

  • RQ1大规模、多样化的光场数据集能否提升深度显著性检测模型在 RGB、RGB-D 和光场输入之间的泛化能力?
  • RQ2如何有效利用高维光场数据以提升桌面系统上的显著性检测性能?
  • RQ3能否有效将基于光场的教师网络的知识迁移至轻量化基于 RGB 的学生网络,以在保持高精度的同时实现移动设备部署?
  • RQ4蒸馏方案在不增加模型尺寸或推理成本的前提下,能在多大程度上提升现有 RGB 显著性模型的性能?
  • RQ5从聚焦切片向单张 RGB 图像迁移聚焦度知识时,性能与效率之间的权衡如何?

主要发现

  • Focal 流在 DUTLF-V2 基准上实现了最先进性能,证明了 MFRM 和 MFSM 模块在利用多聚焦度线索方面的有效性。
  • RGB 流在 DUTLF-V2 上达到 Top-2 F-measure,模型尺寸相比最优基线方法减少 83%,推理速度提升 5 倍。
  • 所提出的蒸馏方案(MFD、AFD、SFD)显著提升了现有 RGB 显著性模型的性能,当应用于 R3Net 时,HFUT-LFSD 上的 MAE 降低了 13.8%。
  • 无额外参数设置可直接将 SFD 集成至现有模型中,无需架构修改即可提升鲁棒性与一致性。
  • 少量额外参数设置(结合全部三种蒸馏方案)带来最大性能增益,表明即使极小的架构修改也能带来显著改进。
  • 可视化对比表明,蒸馏可生成更准确、更一致的显著性图,尤其在小尺寸或相似显著目标的复杂场景中表现更优。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。