Skip to main content
QUICK REVIEW

[论文解读] The Vendi Score: A Diversity Evaluation Metric for Machine Learning

Dan Friedman, Adji Bousso Dieng|arXiv (Cornell University)|Oct 5, 2022
Scientific Computing and Data Management被引用 26
一句话总结

Vendi Score 将多样性定义为样本集合上用户定义的相似性核的特征值熵的指数,从而提供一个无参照、通用于 ML 应用的通用多样性度量。

ABSTRACT

Diversity is an important criterion for many areas of machine learning (ML), including generative modeling and dataset curation. However, existing metrics for measuring diversity are often domain-specific and limited in flexibility. In this paper, we address the diversity evaluation problem by proposing the Vendi Score, which connects and extends ideas from ecology and quantum statistical mechanics to ML. The Vendi Score is defined as the exponential of the Shannon entropy of the eigenvalues of a similarity matrix. This matrix is induced by a user-defined similarity function applied to the sample to be evaluated for diversity. In taking a similarity function as input, the Vendi Score enables its user to specify any desired form of diversity. Importantly, unlike many existing metrics in ML, the Vendi Score does not require a reference dataset or distribution over samples or labels, it is therefore general and applicable to any generative model, decoding algorithm, and dataset from any domain where similarity can be defined. We showcase the Vendi Score on molecular generative modeling where we found it addresses shortcomings of the current diversity metric of choice in that domain. We also applied the Vendi Score to generative models of images and decoding algorithms of text where we found it confirms known results about diversity in those domains. Furthermore, we used the Vendi Score to measure mode collapse, a known shortcoming of generative adversarial networks (GANs). In particular, the Vendi Score revealed that even GANs that capture all the modes of a labeled dataset can be less diverse than the original dataset. Finally, the interpretability of the Vendi Score allowed us to diagnose several benchmark ML datasets for diversity, opening the door for diversity-informed data augmentation.

研究动机与目标

  • 将生态系统多样性概念扩展到 ML,以创建一个通用、无参照的多样性度量。
  • 将 Vendi Score 定义为归一化相似性矩阵的特征值熵的指数。
  • 展示该度量在不需要参考分布的情况下的灵活性、可解释性及跨域适用性。
  • 对比现有的基于参照和依赖标签的多样性度量,突出其优点。

提出的方法

  • 定义一个正半定的相似性函数 k,满足 k(x,x)=1,并构建核矩阵 K,其中 K_{i,j}=k(x_i,x_j)。
  • 计算 K/n 的特征值 λ_1,...,λ_n,并定义 VS_k = exp(-Σ_i λ_i log λ_i)。
  • 证明 VS 等于 K/n 的冯诺依曼熵的指数(引理 3.1)。
  • 分析性质:有效个体数、同值元素、分割与对称性(定理 3.1)。
  • 讨论计算方面的要点:一般情况的时间复杂度为 O(n^3),当 K=X^T X 通过嵌入实现时为 O(d^2 n),以及在无法获得嵌入时的Nyström近似。
  • 与相关领域的关联(DPPs、谱聚类)。

实验结果

研究问题

  • RQ1在不依赖参考分布或标签的情况下,如何在 ML 中量化多样性?
  • RQ2Vendi Score 如何随样本数量、相似性结构和特征相关性变化?
  • RQ3是否能使用领域无关的相似性函数在分子、图像、文本等多个领域捕捉多样性?
  • RQ4Vendi Score 是否能揭示模式崩溃或现有度量未能检测到的多样性不足?
  • RQ5在大规模 ML 数据集上计算 Vendi Score 的计算考虑因素与实际实现是什么?

主要发现

  • VS 随着真实多样性增加而增加,且体现为不相似元素的有效个数。
  • VS 考虑特征之间的相关性,并在组合不同相似性函数时增加。
  • VS 能区分在传统多样性分数(如 IntDiv)相近的模型之间的多样性差异,突出重复或聚类结构。
  • VS 与分子、图像和文本解码实验中的已知多样性模式一致,并揭示模式崩溃中的更细粒度差异。
  • VS 为数据集多样性提供可解释的诊断,并可用于引导考虑多样性的数据增强。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。