QUICK REVIEW
[论文解读] Metric distances derived from cosine similarity and Pearson and Spearman correlations
Stijn van Dongen, Anton J. Enright|arXiv (Cornell University)|Aug 14, 2012
Face and Expression Recognition参考文献 4被引用 74
一句话总结
本文通过使用保持度量性质的函数,特别是凹函数和递增变换,从余弦相似性、皮尔逊相关系数和斯皮尔曼等级相关系数推导出度量距离。识别出两类:一类强调反相关对之间的距离最大化(如角度距离和相关距离),另一类则将相关和反相关对归为一类(如锐角距离和绝对相关距离),两类均满足三角不等式。
ABSTRACT
We investigate two classes of transformations of cosine similarity and Pearson and Spearman correlations into metric distances, utilising the simple tool of metric-preserving functions. The first class puts anti-correlated objects maximally far apart. Previously known transforms fall within this class. The second class collates correlated and anti-correlated objects. An example of such a transformation that yields a metric distance is the sine function when applied to centered data.
研究动机与目标
- 从余弦相似性、皮尔逊相关系数和斯皮尔曼等级相关系数推导出满足三角不等式的度量距离。
- 将相关系数和相似性度量的变换分类为两类:一类强调反相关,另一类将相关和反相关对归为一类。
- 建立函数在角度距离上保持度量性质的条件,使用凹函数和递增函数。
- 为数据分析、聚类和索引算法提供数学上严格且保持度量性质的变换。
提出的方法
- 以角度距离 $ d_1(x,y) = \arccos(A(x,y)) $ 作为基础度量,其中 $ A $ 为余弦相似性、皮尔逊相关系数或斯皮尔曼等级相关系数。
- 应用保持度量性质的函数——特别是定义在 $[0, \pi]$ 上的凹函数和递增函数——将角度距离转换为新的度量距离。
- 推导出相关距离 $ d_2(x,y) = \sqrt{\frac{1}{2}(1 - A(x,y))} $,其等价于 $ \sin(\frac{1}{2}\theta) $,并保持距离的序关系。
- 引入锐角距离 $ d_3(x,y) = \frac{1}{2}\pi - \left|\frac{1}{2}\pi - \theta\right| $ 和绝对相关距离 $ d_4(x,y) = \sqrt{1 - A(x,y)^2} $,二者构成第二类度量距离。
- 证明凹函数的次可加性可确保在变换下三角不等式被保持。
- 表明严格凸函数(如 $ g(x) = 1 - \cos(x) $)违反三角不等式,因此无法生成有效度量。
实验结果
研究问题
- RQ1哪些余弦相似性和相关系数的变换能产生满足三角不等式的有效度量距离?
- RQ2如何使用保持度量性质的函数,从现有的相关和相似性度量中推导出新的距离度量?
- RQ3两类度量距离的区别是什么:一类将反相关对分离,另一类将相关和反相关对归为一类?
- RQ4为何某些函数如 $ 1 - \cos(\theta) $ 尽管源自角度距离,却无法保持三角不等式?
- RQ5所推导的距离在序关系上等价的程度如何,这对它们在数据分析中的应用有何影响?
主要发现
- 角度距离 $ \arccos(A(x,y)) $ 对任意满足 $ A \in [-1,1] $ 的相关或相似性度量 $ A $ 均为有效度量。
- 相关距离 $ \sqrt{\frac{1}{2}(1 - A(x,y))} $ 是一种将反相关对置于最大距离的度量。
- 锐角距离 $ \frac{1}{2}\pi - \left|\frac{1}{2}\pi - \theta\right| $ 和绝对相关距离 $ \sqrt{1 - A(x,y)^2} $ 构成第二类度量距离,对相关和反相关对一视同仁。
- 在 $[0, \epsilon]$ 上为严格凸且满足 $ f(0) = 0 $ 的函数违反三角不等式,如反例所示 $ g(x) = 1 - \cos(x) $。
- 所有推导出的距离与角度距离序关系等价,保持了成对相似性的排序。
- 凹函数的复合,如 $ f_5(x) = \sin(x)^p $(其中 $ 0 < p \leq 1 $),同样产生有效的度量距离。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。