Skip to main content
QUICK REVIEW

[论文解读] Semi-Supervised Learning via Compact Latent Space Clustering

Konstantinos Kamnitsas, Daniel C. Castro|ArXiv.org|Jun 7, 2018
Domain Adaptation and Few-Shot Learning被引用 42
一句话总结

引入一种半监督学习方法,通过使用动态图构建和标签传播在潜在空间中形成紧凑的、类别特定的簇来对神经网络进行正则化。

ABSTRACT

We present a novel cost function for semi-supervised learning of neural networks that encourages compact clustering of the latent space to facilitate separation. The key idea is to dynamically create a graph over embeddings of labeled and unlabeled samples of a training batch to capture underlying structure in feature space, and use label propagation to estimate its high and low density regions. We then devise a cost function based on Markov chains on the graph that regularizes the latent space to form a single compact cluster per class, while avoiding to disturb existing clusters during optimization. We evaluate our approach on three benchmarks and compare to state-of-the art with promising results. Our approach combines the benefits of graph-based regularization with efficient, inductive inference, does not require modifications to a network architecture, and can thus be easily applied to existing networks to enable an effective use of unlabeled data.

研究动机与目标

  • 通过强化同一类别的所有样本在潜在空间中形成一个单一的紧凑簇来激发并利用聚类假设。
  • 开发一种基于图的机制,在训练过程中捕捉批量嵌入(包含有标签和无标签)结构的演化。
  • 使用标签传播来估计潜在空间中的高/低密度区域,并在不修改网络结构的情况下对潜在表示进行正则化。
  • 提供一个高效的归纳式 SSL 正则化器,利用无标签数据并补充标准的监督学习。

提出的方法

  • 在每次 SGD 迭代时,使用有标签和无标签样本的嵌入在网络的潜在空间中动态构建一个全连接图。
  • 在该图上应用标签传播以在潜在空间估计类别后验并捕捉数据流形结构。
  • 基于图上的马尔可夫链定义一个正则化项(CCLP),在保持现有高密度区域的同时鼓励每个类别形成一个单一的紧凑簇。
  • 使用由 LP 后验推导出的软目标转移矩阵 T,并通过对跨越多步 s=1,...,S 的交叉熵目标来促使 H(转移矩阵)与 T 对齐。
  • 以组合损失 L_total = supervised loss + w * L_CCLP 训练,其中 L_CCLP 对 S 步求和以建模不同长度的路径。

实验结果

研究问题

  • RQ1在受限标注数据下,基于标签传播的紧凑聚类(CCLP)是否在标准基准上提升 SSL 的分类性能?
  • RQ2马尔可夫链步数 S 如何影响紧凑簇的形成及下游准确率?
  • RQ3在所有标签可用时,所提出的潜在空间正则化器是否可以补充并提升全监督训练?
  • RQ4CCLP 与依赖生成模型或扰动型正则化的最新 SSL 方法相比如何?

主要发现

  • 在标注数据有限的设置下,CCLP 相比若干当代 SSL 方法在 MNIST、SVHN 和 CIFAR-10 上提升了 SSL 性能。
  • 该正则化项在完全使用标注集时也能提供持续的提升,表明它同样有益于全监督系统。
  • 增加更多的 LP 步骤(S)通常通过促进全局结构来带来更好的性能,直到步数太少会削弱聚类效果。
  • CCLP 实现简单,无需额外的网络组件(如 GANs 或 VAEs),可以作为潜在空间正则化器应用于现有架构。
  • 来自 CCLP 的梯度信号由潜在空间几何驱动,在很大程度上独立于分类器边界,降低了与某些基于熵的正则化方法相比的确认偏差风险。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。