Skip to main content
QUICK REVIEW

[論文レビュー] Visualizing Data using GTSNE

Songting Shi|arXiv (Cornell University)|Aug 3, 2021
Data Visualization and Analytics参考文献 5被引用数 25
ひとこと要約

GTSNE は、マクロ-構造をマクロ損失と k-means セントロイドを介して追加する t-SNE のグローバル版で、2D での高次元データの可視化を改善します。

ABSTRACT

We present a new method GTSNE to visualize high-dimensional data points in the two dimensional map. The technique is a variation of t-SNE that produces better visualizations by capturing both the local neighborhood structure and the macro structure in the data. This is particularly important for high-dimensional data that lie on continuous low-dimensional manifolds. We illustrate the performance of GTSNE on a wide variety of datasets and compare it the state of art methods, including t-SNE and UMAP. The visualizations produced by GTSNE are better than those produced by the other techniques on almost all of the datasets on the macro structure preservation.

研究の動機と目的

  • 高次元データの可視化を、局所構造とマクロ構造の両方を保持することにより改善する。
  • マクロ構造を中心ベースの確率を組み込むグローバルな t-SNE フレームワーク (GTSNE) を導入する。
  • GTSNE 損失の勾配ベース最適化を、適応学習率で実現する。
  • 合成データセットと実データセットで GTSNE を実証し、t-SNE および UMAP と比較する。

提案手法

  • 局所構造とマクロ構造を捉える L(Y)=L_micro + α L_macro + β L_k-means の三部構成の損失を定義する。
  • PCA、PCA 埋め込み上の K-means セントロイド、およびセントロイドベースの確率 R と P_macro を用いて高次元のマクロ構造を表現する。
  • 勾配ベースの最適化と適応学習率を用いて、低次元埋め込み Y の L(Y) を最小化する。
  • t-SNE に類比した GTSNE の勾配を導出し、マイクロ、マクロ、k-means の項を組み込む(式10-11、式15-20)。
  • 初期化、前処理(PCA、K-means、近傍確率)、反復更新を詳述するアルゴリズムの概要(Algorithm 1)を提供する。

実験結果

リサーチクエスチョン

  • RQ1t-SNE の視覚化にマクロ構造を組み込んで、グローバルな関係をより良く保持するにはどうすればよいか?
  • RQ2セントロイドベースのマクロ損失の導入は、標準の t-SNE や UMAP と比べてマクロ構造の保持を改善するか?
  • RQ3マクロおよび k-means の損失項が最適化ダイナミクスと最終的な埋め込みに与える影響は?
  • RQ4GTSNE は合成の直線データ、トイデータセット、MNIST、単細胞 RNA-seq データで、構造保持の観点でどう性能を発揮するか?

主な発見

  • GTSNE は多くのデータセットでマクロ構造関連の視覚表現において t-SNE よりマクロ構造を保持する。
  • 連続線データのシミュレーションで、GTSNE は線の連続性を維持する一方、t-SNE は維持できず、UMAP もそれを保持するが異なる歪みを伴う。
  • GTSNE は Swiss Roll や Pancreas のようなデータセットで連結マップを生成し、t-SNE より円形や球状構造の保持が良い。結果は場合により UMAP より競合、または優越。
  • MNIST では、GTSNE は t-SNE および UMAP に対して比較的な表現を提供し、大規模画像データで競争力のある性能を示す。
  • 論文は、GTSNE が大規模データセット(例:MNIST サイズ)で遅くなる可能性を指摘し、マクロ構造の定義を今後の改善課題として議論している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。