QUICK REVIEW

[论文解读] Visualizing Data using GTSNE

Songting Shi|arXiv (Cornell University)|Aug 3, 2021

Data Visualization and Analytics参考文献 5被引用 25

一句话总结

GTSNE 是一个全局变体的 t-SNE，通过宏结构保持和宏损失及 k-means 中心来提升高维数据在二维可视化的效果。

ABSTRACT

We present a new method GTSNE to visualize high-dimensional data points in the two dimensional map. The technique is a variation of t-SNE that produces better visualizations by capturing both the local neighborhood structure and the macro structure in the data. This is particularly important for high-dimensional data that lie on continuous low-dimensional manifolds. We illustrate the performance of GTSNE on a wide variety of datasets and compare it the state of art methods, including t-SNE and UMAP. The visualizations produced by GTSNE are better than those produced by the other techniques on almost all of the datasets on the macro structure preservation.

研究动机与目标

通过同时保持局部和宏结构，推动对高维数据更好可视化。
引入一个全局 t-SNE 框架（GTSNE），通过基于质心的概率来融入宏结构。
为 GTSNE 损失开发一个可行的基于梯度的优化，结合自适应学习率。
在合成数据和真实数据集上演示 GTSNE，并与 t-SNE 和 UMAP 进行比较。

提出的方法

定义三部分损失 L(Y)=L_micro + α L_macro + β L_k-means，以捕捉局部与宏结构。
使用 PCA 表征高维宏结构，在 PCA 嵌入上进行 k-means 的质心以及基于质心的概率 R 和 P_macro。
使用低维嵌入 Y，利用基于梯度的优化和自适应学习率来最小化 L(Y)。
推导与 t-SNE 类似的 GTSNE 梯度，结合微观、宏观和 k-means 项（方程式 10-11, 15-20）。
给出一个算法提纲（Algorithm 1），详细说明初始化、预处理（PCA、K-means、邻域概率）及迭代更新。

实验结果

研究问题

RQ1如何将宏结构融入 t-SNE 可视化，以更好地保留全局关系？
RQ2与标准 t-SNE 和 UMAP 相比，基于质心的宏损失的引入是否提升了宏结构的保留？
RQ3宏损失和 k-means 损失项对优化动力学和最终嵌入的影响是什么？
RQ4在合成线数据、玩具数据集、MNIST 以及单细胞 RNA-seq 数据上，GTSNE 在结构保持方面的表现如何？

主要发现

在许多数据集上，GTSNE 在宏结构相关的可视化方面比 t-SNE 更好地保持宏结构。
在模拟的连续线数据上，GTSNE 维持线条连续性，这一点 t-SNE 无法做到，而 UMAP 也保持，但有不同的失真。
GTSNE 为 Swiss Roll、Pancreas 等数据集生成连续映射，在圆形或球形结构的保留方面优于 t-SNE；在某些情况下结果与 UMAP 竞争甚至优于 UMAP。
对于 MNIST，GTSNE 提供了可与 t-SNE 和 UMAP 相比的表示，显示在大规模图像数据上的竞争力。
论文指出 GTSNE 在大型数据集（如 MNIST 大小）上可能较慢，并将宏结构定义作为未来改进的方向。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。