Skip to main content
QUICK REVIEW

[论文解读] Learning by Association - A versatile semi-supervised training method for neural networks

Philip Häusser, Alexander Mordvintsev|arXiv (Cornell University)|Jun 3, 2017
Domain Adaptation and Few-Shot Learning参考文献 32被引用 54
一句话总结

一个可微分的半监督训练框架,通过在带标签和未带标签的数据嵌入之间形成并优化循环一致的关联来学习,在标签稀缺时尤其提升分类性能。

ABSTRACT

In many real-world scenarios, labeled data for a specific machine learning task is costly to obtain. Semi-supervised training methods make use of abundantly available unlabeled data and a smaller number of labeled examples. We propose a new framework for semi-supervised training of deep neural networks inspired by learning in humans. "Associations" are made from embeddings of labeled samples to those of unlabeled ones and back. The optimization schedule encourages correct association cycles that end up at the same class from which the association was started and penalizes wrong associations ending at a different class. The implementation is easy to use and can be added to any existing end-to-end training setup. We demonstrate the capabilities of learning by association on several data sets and show that it can improve performance on classification tasks tremendously by making use of additionally available unlabeled data. In particular, for cases with few labeled data, our training scheme outperforms the current state of the art on SVHN.

研究动机与目标

  • 在获得带标签数据成本高时,激发半监督训练的动力。
  • 引入一个可微分的基于关联的框架,利用未标注数据来学习有意义的嵌入。
  • 提供一个端到端实现,能够增强现有网络。
  • 在 MNIST、SVHN 和 STL-10 上展示性能提升,尤其是在标记样本较少时。

提出的方法

  • 将带标签(A)和未带标签(B)数据的批次输入网络以获得嵌入 A 和 B。
  • 通过对点积相似性进行 softmax 计算得到关联概率 P^{ab} 和 P^{ba}。
  • 定义往返概率 P^{aba} = P^{ab} P^{ba},并最大化以起始类别为同一的正确步行。
  • 使用 walker loss 作为对正确类别往返的统一目标与 P^{aba} 的交叉熵。
  • 添加 visit loss,通过统一目标与访问概率 P^{visit} 的交叉熵鼓励访问所有未标注样本。
  • 可选地包括分类损失,将嵌入映射到类别 logits,以在目标任务上进行评估。
  • 使用 Adam 端到端训练,必要时在 TensorFlow 中进行数据增强。

实验结果

研究问题

  • RQ1循环一致的带标签和未标记嵌入之间的关联是否能提升半监督学习性能?
  • RQ2walker 损失和 visit 损失如何影响嵌入质量与泛化?
  • RQ3在标准基准(MNIST、SVHN、STL-10)使用未标注数据时的经验收益是什么?
  • RQ4该方法在领域自适应情境下的表现如何?

主要发现

  • 该方法在 MNIST 和 SVHN 上取得具竞争力的结果,在 SVHN 的 500 个带标签样本时超越了现有方法。
  • 添加未标注数据的关联学习提升了性能,例如在 SVHN 的 500 个带标签样本下测试误差从 17.75% 降至 6.25%。
  • visit loss 对 MNIST 至关重要,对 SVHN 也有益,在权重适当时可提升性能。
  • 在 SVHN 的不同带/未带标签数据设置下,随着未带标注数据增加,测试误差持续降低(如全数据设置从 3.09% 降到 2.69%)。
  • 领域自适应实验表明该方法在目标域误差上相对于某些基线有显著降低。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。