Skip to main content
QUICK REVIEW

[논문 리뷰] Metric distances derived from cosine similarity and Pearson and Spearman correlations

Stijn van Dongen, Anton J. Enright|arXiv (Cornell University)|2012. 08. 14.
Face and Expression Recognition참고 문헌 4인용 수 74
한 줄 요약

이 논문은 각도 거리, 피어슨 상관계수, 스피어만 상관계수와 같은 유사도 및 상관관계 측정치로부터 거리 함수를 유도하기 위해, 거리 성질을 유지하는 함수—특히 볼록이며 증가하는 변환 함수—를 사용한다. 이는 두 가지 유형의 거리로 나뉜다: 하나는 반상관관계 쌍(예: 각도 거리, 상관계수 거리) 간의 거리를 최대화하며, 다른 하나는 상관관계 쌍과 반상관관계 쌍을 함께 묶는다(예: 예각 각도 거리, 절대 상관계수 거리). 두 경우 모두 삼각 부등식을 만족한다.

ABSTRACT

We investigate two classes of transformations of cosine similarity and Pearson and Spearman correlations into metric distances, utilising the simple tool of metric-preserving functions. The first class puts anti-correlated objects maximally far apart. Previously known transforms fall within this class. The second class collates correlated and anti-correlated objects. An example of such a transformation that yields a metric distance is the sine function when applied to centered data.

연구 동기 및 목표

  • 코사인 유사도, 피어슨 상관계수, 스피어만 상관계수로부터 삼각 부등식을 만족하는 유효한 거리 함수를 도출하는 것.
  • 상관계수 및 유사도 측정치의 변환을 두 가지 다른 유형으로 분류하는 것: 하나는 반상관관계를 강조하고, 다른 하나는 상관관계 쌍과 반상관관계 쌍을 함께 묶는 것.
  • 각도 거리의 함수가 볼록하고 증가하는 함수를 사용할 때 거리 성질을 유지하는 조건을 설정하는 것.
  • 데이터 분석, 클러스터링, 색인 알고리즘 등에 적용 가능한 수학적으로 엄밀한 거리 유지 변환을 제공하는 것.

제안 방법

  • 기저 거리로 각도 거리 $ d_1(x,y) = \arccos(A(x,y)) $ 를 사용하며, 여기서 $ A $ 는 코사인 유사도, 피어슨 상관계수, 또는 스피어만 상관계수이다.
  • 특히 $[0, \pi]$ 에서 볼록하고 증가하는 함수를 사용하여 거리 성질을 유지하는 함수를 적용함으로써 각도 거리를 새로운 유효한 거리 함수로 변환한다.
  • 상관계수 거리 $ d_2(x,y) = \sqrt{\frac{1}{2}(1 - A(x,y))} $ 를 도출하며, 이는 $ \sin(\frac{1}{2}\theta) $ 와 동치이며, 거리 간 순서를 유지한다.
  • 예각 각도 거리 $ d_3(x,y) = \frac{1}{2}\pi - \left|\frac{1}{2}\pi - \theta\right| $ 와 절대 상관계수 거리 $ d_4(x,y) = \sqrt{1 - A(x,y)^2} $ 를 도입하며, 이 두 거리는 두 번째 유형의 유효한 거리 함수를 이룬다.
  • 볼록 함수의 가중합 성질이 삼각 부등식의 유지 보장을 보장함을 증명한다.
  • 엄격하게 볼록한 함수(예: $ g(x) = 1 - \cos(x) $) 는 삼각 부등식을 위반하므로 유효한 거리 함수를 생성하지 못함을 시연한다.

실험 결과

연구 질문

  • RQ1코사인 유사도 및 상관계수 계수의 어떤 변환 방식이 삼각 부등식을 만족하는 유효한 거리 함수를 생성하는가?
  • RQ2거리 유지 함수를 어떻게 활용하여 기존의 상관계수 및 유사도 측정치로부터 새로운 거리 측정치를 도출할 수 있는가?
  • RQ3두 가지 유형의 거리 함수는 무엇으로 구분되는가: 하나는 반상관관계 쌍을 분리하고, 다른 하나는 상관관계 쌍과 반상관관계 쌍을 함께 묶는가?
  • RQ4왜 $ 1 - \cos(\theta) $ 와 같은 특정 함수는 각도 거리에서 유도되었음에도 불구하고 삼각 부등식을 유지하지 못하는가?
  • RQ5유도된 거리 함수는 어느 정도 순서적으로 동치이며, 이는 데이터 분석에 어떻게 영향을 미치는가?

주요 결과

  • 모든 상관계수 또는 유사도 측정치 $ A \in [-1,1] $ 에 대해 각도 거리 $ \arccos(A(x,y)) $ 는 유효한 거리 함수이다.
  • 상관계수 거리 $ \sqrt{\frac{1}{2}(1 - A(x,y))} $ 는 반상관관계 쌍 간의 거리를 최대화하는 유효한 거리 함수이다.
  • 예각 각도 거리 $ \frac{1}{2}\pi - \left|\frac{1}{2}\pi - \theta\right| $ 와 절대 상관계수 거리 $ \sqrt{1 - A(x,y)^2} $ 는 상관관계 쌍과 반상관관계 쌍을 대칭적으로 취급하는 두 번째 유형의 유효한 거리 함수를 이룬다.
  • 구간 $[0, \epsilon]$ 에서 엄격하게 볼록하고 $ f(0) = 0 $ 을 만족하는 함수는 반례를 통해 삼각 부등식을 위반함을 보여, $ g(x) = 1 - \cos(x) $ 와 같이 위반함을 입증한다.
  • 모든 유도된 거리 함수는 각도 거리와 순서적으로 동치이며, 쌍별 유사도의 순서를 유지한다.
  • 볼록 함수의 복합 함수, 예를 들어 $ f_5(x) = \sin(x)^p $ ($ 0 < p \leq 1 $) 도 유효한 거리 함수를 생성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.