Skip to main content
QUICK REVIEW

[论文解读] Self-Transfer Learning for Fully Weakly Supervised Object Localization

Sangheum Hwang, Hyoeun Kim|arXiv (Cornell University)|Feb 4, 2016
Advanced Neural Network Applications参考文献 25被引用 28
一句话总结

本文提出自迁移学习(Self-Transfer Learning, STL),一种完全弱监督的目标定位框架,通过联合优化分类与定位网络,在无需预训练模型或边界框标注的情况下实现端到端训练。通过自适应调整分类与定位任务之间的损失权重比例,STL使定位网络能够聚焦于最具判别性的区域,在胸部X光片和乳腺X光片数据集上实现了最先进性能,定位准确率显著提升——在结核病检测任务中相对增益高达58%,在乳腺摄影任务中达242%。

ABSTRACT

Recent advances of deep learning have achieved remarkable performances in various challenging computer vision tasks. Especially in object localization, deep convolutional neural networks outperform traditional approaches based on extraction of data/task-driven features instead of hand-crafted features. Although location information of region-of-interests (ROIs) gives good prior for object localization, it requires heavy annotation efforts from human resources. Thus a weakly supervised framework for object localization is introduced. The term "weakly" means that this framework only uses image-level labeled datasets to train a network. With the help of transfer learning which adopts weight parameters of a pre-trained network, the weakly supervised learning framework for object localization performs well because the pre-trained network already has well-trained class-specific features. However, those approaches cannot be used for some applications which do not have pre-trained networks or well-localized large scale images. Medical image analysis is a representative among those applications because it is impossible to obtain such pre-trained networks. In this work, we present a "fully" weakly supervised framework for object localization ("semi"-weakly is the counterpart which uses pre-trained filters for weakly supervised localization) named as self-transfer learning (STL). It jointly optimizes both classification and localization networks simultaneously. By controlling a supervision level of the localization network, STL helps the localization network focus on correct ROIs without any types of priors. We evaluate the proposed STL framework using two medical image datasets, chest X-rays and mammograms, and achieve signiticantly better localization performance compared to previous weakly supervised approaches.

研究动机与目标

  • 解决现有弱监督目标定位方法依赖预训练模型的局限性,而此类模型在医学影像等领域往往不可用。
  • 开发一种完全弱监督的框架,仅需图像级别标签,无需任何定位先验或预训练特征。
  • 通过联合训练分类与定位网络并采用自适应损失加权机制,提升定位性能。
  • 在真实世界医学影像任务(包括胸部X光片和乳腺摄影)中验证所提方法的有效性。

提出的方法

  • 该框架通过分类与定位任务的交叉熵损失加权和,联合优化分类网络与定位网络。
  • 可调节超参数 α 在训练过程中动态调整分类与定位任务之间的相对重要性。
  • 通过自适应重加权 α 实现自迁移,引导定位网络聚焦于最具判别性的区域。
  • 定位网络采用 1×1 卷积层后接全局池化(最大池化或平均池化)生成激活图以实现目标定位。
  • 该方法不使用任何预训练权重或边界框标注,完全依赖图像级别标签。
  • 分类与定位分支共享卷积层,实现在同一网络内的特征迁移。

实验结果

研究问题

  • RQ1完全弱监督的目标定位框架是否能在不依赖预训练模型或边界框标注的情况下实现高性能?
  • RQ2与独立训练分类与定位网络相比,联合优化分类与定位网络如何提升定位准确率?
  • RQ3通过 α 实现的自适应损失加权对定位网络收敛至良好局部最优解有何影响?
  • RQ4所提出的自迁移机制是否能有效引导定位网络聚焦于医学影像中的判别性区域?
  • RQ5该方法在低对比度、含伪影及解剖结构复杂的医学影像任务中表现如何?

主要发现

  • 在深圳结核病数据集上,STL 配合平均池化使定位 AP 相较基线提升 26%,分类 AP 提升 2%。
  • 在 MC 结核病数据集上,STL 配合平均池化使定位 AP 相较基线提升 58%,分类 AP 提升 17%。
  • 在乳腺摄影任务中,STL 配合平均池化使定位 AP 相较基线提升 242%,尽管训练集图像复杂度高且质量低。
  • 对于全局最大池化,基线模型未使用 STL 时无法训练(训练损失无下降),表明缺乏所提机制时收敛性差。
  • 精确率-召回率曲线与可视化结果表明,STL 生成的激活图比基线方法更准确且更聚焦。
  • 在两个不同医学影像数据集上,该方法在分类与定位指标上均优于所有基线方法。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。