Skip to main content
QUICK REVIEW

[论文解读] A Method of Moments Embedding Constraint and its Application to Semi-Supervised Learning

Michael Majurski, Sumeet Menon|arXiv (Cornell University)|Apr 27, 2024
Neural Networks and Applications被引用 1
一句话总结

该论文提出了一种矩方法(Method of Moments, MoM)嵌入约束,通过使深度神经网络能够建模联合分布 p(Y, X) 而非仅条件分布 p(Y|X),从而提升半监督图像分类性能。通过用可微分的轴对齐高斯混合模型(Axis-Aligned Gaussian Mixture Model, AAGMM)替代标准的 softmax 层,并应用至四阶的 MoM 约束,该方法在仅使用 40 个标注样本的情况下,在 CIFAR-10 和 STL-10 上实现了最先进(SOTA)的准确率,同时通过马氏距离实现了鲁棒的异常值检测。

ABSTRACT

Discriminative deep learning models with a linear+softmax final layer have a problem: the latent space only predicts the conditional probabilities $p(Y|X)$ but not the full joint distribution $p(Y,X)$, which necessitates a generative approach. The conditional probability cannot detect outliers, causing outlier sensitivity in softmax networks. This exacerbates model over-confidence impacting many problems, such as hallucinations, confounding biases, and dependence on large datasets. To address this we introduce a novel embedding constraint based on the Method of Moments (MoM). We investigate the use of polynomial moments ranging from 1st through 4th order hyper-covariance matrices. Furthermore, we use this embedding constraint to train an Axis-Aligned Gaussian Mixture Model (AAGMM) final layer, which learns not only the conditional, but also the joint distribution of the latent space. We apply this method to the domain of semi-supervised image classification by extending FlexMatch with our technique. We find our MoM constraint with the AAGMM layer is able to match the reported FlexMatch accuracy, while also modeling the joint distribution, thereby reducing outlier sensitivity. We also present a preliminary outlier detection strategy based on Mahalanobis distance and discuss future improvements to this strategy. Code is available at: \url{https://github.com/mmajurski/ssl-gmm}

研究动机与目标

  • 解决基于 softmax 的深度分类器在半监督学习中存在过自信和对异常值敏感的问题。
  • 在潜在空间中建模完整的联合分布 p(Y, X),而不仅限于条件分布 p(Y|X)。
  • 开发一种可微分的最终层,显式通过高斯混合成分建模类别聚类中心。
  • 通过将低先验输入标记为异常值来降低模型的过自信和幻觉现象。
  • 通过学习结构良好的潜在空间,在标注数据有限的情况下提升半监督学习的鲁棒性。

提出的方法

  • 使用一至四阶多项式矩的矩方法(MoM)约束,将潜在空间正则化为具有良好行为的高斯分布。
  • 用可微分的轴对齐高斯混合模型(AAGMM)替代最终的线性+softmax 层,显式建模聚类中心与协方差。
  • 在潜在空间中使用马氏距离作为基于学习到的联合分布的初步异常值检测策略。
  • 对所有未标注数据应用 MoM 惩罚,而不仅限于高置信度伪标签样本,以拟合完整的联合分布。
  • 使用一致性正则化和伪标签训练模型,AAGMM 层支持联合分布学习。
  • 采用可微分的训练流程,反向传播通过 AAGMM 层和 MoM 约束。

实验结果

研究问题

  • RQ1矩方法约束能否改善半监督学习中潜在空间的结构?
  • RQ2建模联合分布 p(Y, X) 是否能降低模型过自信并提升异常值检测性能?
  • RQ3可微分的 AAGMM 层能否在实现与 SOTA 性能相当的同时,支持潜在空间的生成建模?
  • RQ4高阶 MoM 约束的引入如何影响模型准确率与内存使用?
  • RQ5潜在空间中的马氏距离能否作为一种有效且可微分的异常值检测机制?

主要发现

  • 在 CIFAR-10 上,使用二阶或四阶 MoM 约束的 AAGMM 层在仅 40 个标签下达到 94.98% 的准确率,与报告的 FlexMatch 性能相当。
  • 在 CIFAR-10 上,MoM-AAGMM 方法使潜在空间聚类紧凑性相比基线 AAGMM(1.03)降低了 48%(L2 距离为 0.53),而 KMeans 的紧凑性为 18.41。
  • 在 STL-10 上,该方法在使用一阶 MoM 时达到 71.11% 的准确率,优于基线 FixMatch(35.97%)和 FlexMatch(29.15%),且仅使用 40 个标签。
  • 使用第 90 百分位数马氏距离进行异常值剔除时,MoM 应用后 CIFAR-10 的测试准确率下降约 7%,表明对正常样本的过滤过于激进。
  • 高阶 MoM 约束显著增加了 GPU 内存使用,四阶约束下 8D 嵌入的显存达到 8.76 GiB,32D 嵌入则达 20.47 GiB,限制了实际可扩展性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。