Skip to main content
QUICK REVIEW

[论文解读] Automatic Selection of t-SNE Perplexity

Yanshuai Cao, Luyu Wang|arXiv (Cornell University)|Aug 10, 2017
Evolutionary Algorithms and Applications参考文献 1被引用 37
一句话总结

本文提出一种基于新颖目标函数的自动t-SNE困惑度超参数选择方法:$2\text{KL}(P||Q) + \log(n)\frac{\text{Perp}}{n}$,并通过人工专家偏好收集验证了该方法。该方法通过建模专家偏好并使用高斯过程,消除了手动调参的需要,其性能优于默认设置。

ABSTRACT

t-Distributed Stochastic Neighbor Embedding (t-SNE) is one of the most widely used dimensionality reduction methods for data visualization, but it has a perplexity hyperparameter that requires manual selection. In practice, proper tuning of t-SNE perplexity requires users to understand the inner working of the method as well as to have hands-on experience. We propose a model selection objective for t-SNE perplexity that requires negligible extra computation beyond that of the t-SNE itself. We empirically validate that the perplexity settings found by our approach are consistent with preferences elicited from human experts across a number of datasets. The similarities of our approach to Bayesian information criteria (BIC) and minimum description length (MDL) are also analyzed.

研究动机与目标

  • 通过自动化选择消除对t-SNE困惑度的手动、依赖经验的调优。
  • 开发一种反映专家对最优困惑度设置判断的模型选择目标函数。
  • 通过人类专家的成对偏好收集验证所提出的目标函数。
  • 证明该方法在包括数字、coil20和人脸在内的多样化数据集上具有泛化能力。

提出的方法

  • 提出新的目标函数:$S(\text{Perp}) = 2\text{KL}(P||Q) + \log(n)\frac{\text{Perp}}{n}$,该函数基于信息论原理推导得出。
  • 通过8位人类专家的成对偏好收集,获取关于良好困惑度设置的标注判断。
  • 使用具有二元排序似然的高斯过程建模专家不确定性,以推断最优困惑度。
  • 将高维与低维分布之间的KL散度作为目标函数的核心组成部分。
  • 对目标函数进行校准,以在重建保真度与复杂度之间取得平衡,类似于BIC,但复杂度调节方向相反。

实验结果

研究问题

  • RQ1是否能够通过数据驱动的目标函数可靠地选择t-SNE困惑度,而无需人工干预?
  • RQ2所提出的目标函数与经专家验证的最优困惑度偏好匹配程度如何?
  • RQ3该方法在具有不同数据结构的多样化数据集上是否具有泛化能力?
  • RQ4为何目标函数$2\text{KL}(P||Q) + \log(n)\frac{\text{Perp}}{n}$优于标准KL最小化?

主要发现

  • 所提出的目标函数$S(\text{Perp}) = 2\text{KL}(P||Q) + \log(n)\frac{\text{Perp}}{n}$在匹配专家偏好方面优于默认困惑度设置。
  • 人类专家偏好数据在不同数据集上表现出一致的模式,验证了该方法的泛化能力。
  • 该方法成功减少了在困惑度选择中对视觉检查和专家经验的依赖。
  • 目标函数被发现能有效平衡模型拟合与复杂度,其结构类似于BIC,但复杂度调节方向相反。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。