[论文解读] Uniform Manifold Approximation and Projection (UMAP) and its Variants: Tutorial and Survey
对 UMAP 及其变体的全面教程与综述,详细介绍算法基础、理论依据、与 t-SNE/LargeVis 的比较,以及像 DensMAP、Parametric UMAP 和 Progressive UMAP 等扩展。
Uniform Manifold Approximation and Projection (UMAP) is one of the state-of-the-art methods for dimensionality reduction and data visualization. This is a tutorial and survey paper on UMAP and its variants. We start with UMAP algorithm where we explain probabilities of neighborhood in the input and embedding spaces, optimization of cost function, training algorithm, derivation of gradients, and supervised and semi-supervised embedding by UMAP. Then, we introduce the theory behind UMAP by algebraic topology and category theory. Then, we introduce UMAP as a neighbor embedding method and compare it with t-SNE and LargeVis algorithms. We discuss negative sampling and repulsive forces in UMAP's cost function. DensMAP is then explained for density-preserving embedding. We then introduce parametric UMAP for embedding by deep learning and progressive UMAP for streaming and out-of-sample data embedding.
研究动机与目标
- 解释 UMAP 算法,包括邻域概率、嵌入优化、训练过程和梯度推导。
- 给出代数拓扑和范畴论基础,说明为何 UMAP 的代价函数成立/合理。
- 从邻居嵌入与优化的角度,将 UMAP 与 t-SNE 和 LargeVis 进行比较。
- 讨论 UMAP 的代价函数中的负采样和排斥力及其影响。
- 介绍并解释如 DensMAP、Parametric UMAP 和 Progressive UMAP 等变体。
提出的方法
- 使用 k-NN 图以及 rho_i 与 sigma_i(式 3-5)定义输入空间的邻域概率 p_{ij}。
- 给出嵌入空间相似性 q_{ij},参数为 a 和 b(式 7)。
- 将优化目标 c2 形成模糊交叉熵形式(式 9-13)。
- 描述梯度下降随机梯度下降(SGD)训练循环,利用拉普拉斯特征映射初始化,以及用于排斥力的负采样(算法 1)。
- 给出吸引项和排斥项的闭式梯度(式 14-15),并讨论稳定性 epsilon。
- 通过在代价中加入分类项来说明有监督/半监督变体。
实验结果
研究问题
- RQ1UMAP 如何在高维数据与低维数据之间构建并对齐模糊拓扑表示?
- RQ2概率定义 p_{ij} 与 q_{ij} 如何影响嵌入优化和邻居保持?
- RQ3UMAP、t-SNE 与 LargeVis 在概率、代价函数和计算效率上有何不同?
- RQ4排斥力与负采样在塑造嵌入中的作用,以及这如何与有效代价函数相关?
- RQ5除了无监督的 UMAP 外,提出了哪些扩展,如 DensMAP、Parametric UMAP 和 Progressive UMAP,以及它们是如何被形式化的?
主要发现
- UMAP 的嵌入通过使用交叉熵目标,在输入空间与嵌入空间之间匹配模糊拓扑表示来实现。
- 嵌入空间的概率使用带有 a、b 参数的柯西分布样式形式,能够实现更快的优化并兼容小批量更新。
- UMAP 利用负采样来近似排斥力,使大规模数据集上的训练具有可扩展性。
- 比较表明 UMAP、t-SNE 和 LargeVis 在邻域嵌入理念上都包含吸引和排斥组件,但在归一化和效率特性方面存在差异。
- 理论依据将 UMAP 的代价与模糊拓扑以及范畴之间的伴随关系联系起来,为该方法在代数拓扑与范畴理论中提供理论支撑。
- 如 DensMAP、Parametric UMAP 和 Progressive UMAP 的变体将 UMAP 扩展至密度保持、基于深度学习的嵌入,以及流式/样本外数据处理。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。