Skip to main content
QUICK REVIEW

[论文解读] Visualizing Data using GTSNE

Songting Shi|arXiv (Cornell University)|Aug 3, 2021
Data Visualization and Analytics参考文献 5被引用 25
一句话总结

GTSNE 是一个全局变体的 t-SNE,通过宏结构保持和宏损失及 k-means 中心来提升高维数据在二维可视化的效果。

ABSTRACT

We present a new method GTSNE to visualize high-dimensional data points in the two dimensional map. The technique is a variation of t-SNE that produces better visualizations by capturing both the local neighborhood structure and the macro structure in the data. This is particularly important for high-dimensional data that lie on continuous low-dimensional manifolds. We illustrate the performance of GTSNE on a wide variety of datasets and compare it the state of art methods, including t-SNE and UMAP. The visualizations produced by GTSNE are better than those produced by the other techniques on almost all of the datasets on the macro structure preservation.

研究动机与目标

  • 通过同时保持局部和宏结构,推动对高维数据更好可视化。
  • 引入一个全局 t-SNE 框架(GTSNE),通过基于质心的概率来融入宏结构。
  • 为 GTSNE 损失开发一个可行的基于梯度的优化,结合自适应学习率。
  • 在合成数据和真实数据集上演示 GTSNE,并与 t-SNE 和 UMAP 进行比较。

提出的方法

  • 定义三部分损失 L(Y)=L_micro + α L_macro + β L_k-means,以捕捉局部与宏结构。
  • 使用 PCA 表征高维宏结构,在 PCA 嵌入上进行 k-means 的质心以及基于质心的概率 R 和 P_macro。
  • 使用低维嵌入 Y,利用基于梯度的优化和自适应学习率来最小化 L(Y)。
  • 推导与 t-SNE 类似的 GTSNE 梯度,结合微观、宏观和 k-means 项(方程式 10-11, 15-20)。
  • 给出一个算法提纲(Algorithm 1),详细说明初始化、预处理(PCA、K-means、邻域概率)及迭代更新。

实验结果

研究问题

  • RQ1如何将宏结构融入 t-SNE 可视化,以更好地保留全局关系?
  • RQ2与标准 t-SNE 和 UMAP 相比,基于质心的宏损失的引入是否提升了宏结构的保留?
  • RQ3宏损失和 k-means 损失项对优化动力学和最终嵌入的影响是什么?
  • RQ4在合成线数据、玩具数据集、MNIST 以及单细胞 RNA-seq 数据上,GTSNE 在结构保持方面的表现如何?

主要发现

  • 在许多数据集上,GTSNE 在宏结构相关的可视化方面比 t-SNE 更好地保持宏结构。
  • 在模拟的连续线数据上,GTSNE 维持线条连续性,这一点 t-SNE 无法做到,而 UMAP 也保持,但有不同的失真。
  • GTSNE 为 Swiss Roll、Pancreas 等数据集生成连续映射,在圆形或球形结构的保留方面优于 t-SNE;在某些情况下结果与 UMAP 竞争甚至优于 UMAP。
  • 对于 MNIST,GTSNE 提供了可与 t-SNE 和 UMAP 相比的表示,显示在大规模图像数据上的竞争力。
  • 论文指出 GTSNE 在大型数据集(如 MNIST 大小)上可能较慢,并将宏结构定义作为未来改进的方向。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。