QUICK REVIEW

[论文解读] Cross Modal Distillation for Supervision Transfer

Saurabh Gupta, Judy Hoffman|arXiv (Cornell University)|Jul 2, 2015

Advanced Vision and Imaging参考文献 45被引用 23

一句话总结

本文提出跨模态蒸馏方法，利用预训练模型的中级特征，将大规模有标签模态（如RGB图像）的监督信号迁移至无标签配对模态（如深度图或光流图）。该方法仅使用无标签配对数据且无需额外标注，即实现最先进性能——在NYUD2数据集上，目标检测mAP从34.2%提升至41.7%；在JHMDB数据集上，从31.7%提升至35.7%。

ABSTRACT

In this work we propose a technique that transfers supervision between images from different modalities. We use learned representations from a large labeled modality as a supervisory signal for training representations for a new unlabeled paired modality. Our method enables learning of rich representations for unlabeled modalities and can be used as a pre-training procedure for new modalities with limited labeled data. We show experimental results where we transfer supervision from labeled RGB images to unlabeled depth and optical flow images and demonstrate large improvements for both these cross modal supervision transfers. Code, data and pre-trained models are available at https://github.com/s-gupta/fast-rcnn/tree/distillation

研究动机与目标

解决在缺乏大规模有标签数据集的新图像模态（如深度图、光流图）中学习丰富表征的挑战。
仅使用无标签图像对，实现从有良好标注的模态（如ImageNet的RGB图像）向无标签配对模态的知识迁移。
开发一种针对新模态的预训练方法，避免高昂的大规模标注成本，同时在下游任务中实现优异性能。
证明来自源模态的中级特征可有效监督目标模态的表征学习，即使目标模态仅有少量或无标签数据。
通过迁移表征，实现基于RGB训练的目标检测器在深度图或光流图模态上的零样本适应。

提出的方法

在有标签的源模态（如ImageNet中的RGB图像）上训练卷积神经网络（CNN），以学习中级语义表征。
利用源模态的中级特征作为监督信号，训练一个CNN在无标签的配对目标模态（如深度图或光流图）上进行学习。
利用来自两个模态的配对图像对，对齐跨域表征，其中源模型的特征图指导目标模型的训练。
不将知识蒸馏应用于同一模态的模型之间，而是跨不同模态应用，实现跨模态监督信号迁移。
对源网络和目标网络均使用标准CNN架构（如AlexNet或VGG），目标网络被训练以重现源网络的中间激活。
在下游任务（如目标检测或动作识别）上微调所得模型，性能接近完全监督预训练的水平。

实验结果

研究问题

RQ1能否在不依赖目标模态有标签数据的前提下，利用大规模有标签模态（如RGB）的中级特征，对无标签配对模态（如深度图）进行表征学习的监督？
RQ2当仅能使用无标签配对数据时，跨模态蒸馏在下游视觉任务（如目标检测）中的性能提升程度如何？
RQ3通过跨模态蒸馏预训练的模型在性能上与随机初始化和完全监督预训练相比如何？
RQ4迁移后的表征是否能泛化至检测器的零样本适应？例如，将基于RGB训练的检测器适配至在深度图或光流图上运行？

主要发现

在NYUD2数据集上，跨模态蒸馏将仅使用深度图进行目标检测的平均平均精度（mAP）从随机初始化的34.2%提升至41.7%，超越了先前最先进方法。
当结合RGB与深度图特征时，该方法实现了49.1%的mAP，高于标准预训练方法的46.2%，表明多模态特征具有互补优势。
在JHMDB数据集上，通过从RGB向光流图迁移监督信号，动作检测mAP从随机初始化的31.7%提升至35.7%，达到完全监督预训练性能（38.4%）的逾一半。
在10万次迭代下，AlexNet到AlexNet的蒸馏训练仅耗时2.5小时，远快于在ImageNet规模数据上从随机初始化训练的量级。
使用VGG-16作为RGB模型时，NYUD2目标检测mAP进一步提升至42.1%，表明该方法可扩展至更深架构。
迁移后的表征在目标模态中学习到了有用的层次化特征，并与源模态特征保持互补，从而在多模态设置中实现性能提升。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。