QUICK REVIEW

[논문 리뷰] Uniform Manifold Approximation and Projection (UMAP) and its Variants: Tutorial and Survey

Benyamin Ghojogh, Ali Ghodsi|arXiv (Cornell University)|2021. 08. 25.

3D Shape Modeling and Analysis참고 문헌 9인용 수 36

한 줄 요약

UMAP 및 그 변형에 대한 포괄적 강의 및 조사로, 알고리즘적 기초, 이론적 정당화, t-SNE/LargeVis와의 비교, 그리고 DensMAP, Parametric UMAP, Progressive UMAP와 같은 확장을 자세히 다룬다.

ABSTRACT

Uniform Manifold Approximation and Projection (UMAP) is one of the state-of-the-art methods for dimensionality reduction and data visualization. This is a tutorial and survey paper on UMAP and its variants. We start with UMAP algorithm where we explain probabilities of neighborhood in the input and embedding spaces, optimization of cost function, training algorithm, derivation of gradients, and supervised and semi-supervised embedding by UMAP. Then, we introduce the theory behind UMAP by algebraic topology and category theory. Then, we introduce UMAP as a neighbor embedding method and compare it with t-SNE and LargeVis algorithms. We discuss negative sampling and repulsive forces in UMAP's cost function. DensMAP is then explained for density-preserving embedding. We then introduce parametric UMAP for embedding by deep learning and progressive UMAP for streaming and out-of-sample data embedding.

연구 동기 및 목표

이웃 확률, 임베딩 최적화, 학습 절차 및 기울기 도출을 포함하여 UMAP 알고리즘을 설명한다.
UMAP의 비용 함수를 정당화하는 대수적 위상수학 및 범주 이론 기초를 제시한다.
이웃 임베딩 및 최적화 관점에서 UMAP과 t-SNE 및 LargeVis를 비교한다.
UMAP의 비용 함수에서 음의 샘플링과 반발 힘의 역할 및 그것이 갖는 함의를 논의한다.
DensMAP, Parametric UMAP, Progressive UMAP와 같은 변형을 소개하고 설명한다.

제안 방법

k-NN 그래프와 rho_i 및 sigma_i를 사용하여 입력 공간 이웃 확률 p_{ij}를 정의한다 (식 3-5).
매개변수 a와 b를 사용하여 임베딩 공간 유사도 q_{ij}를 정의한다 (식 7).
최적화 목표 c2를 퍼지 교차 엔트로피로 형식화한다 (식 9-13).
SGD 학습 루프, Laplacian 고유맵을 통한 초기화 및 반발 힘을 위한 음의 샘플링(알고리즘 1)을 설명한다.
매력적 항과 반발 항에 대한 해석적 도함수(식 14-15)를 제시하고 안정성 epsilon를 논의한다.
비용 함수에 분류 항을 추가하여 감독 및 준감독 변형을 설명한다.

실험 결과

연구 질문

RQ1UMAP이 고차원 데이터와 저차원 데이터 간의 퍼지 위상 표현을 어떻게 구성하고 정렬하는가?
RQ2확률 정의 p_{ij}와 q_{ij}가 임베딩 최적화 및 이웃 보존에 어떤 영향을 미치는가?
RQ3UMAP, t-SNE, LargeVis가 확률, 비용 함수 및 계산 효율성 면에서 어떻게 다른가?
RQ4반발 힘과 음의 샘플링이 임베딩 형성에 미치는 역할과 이것이 유효한 비용 함수와 어떻게 연결되는가?
RQ5비지도 UMAP를 넘는 어떤 확장들이 제안되었는가, 예를 들어 DensMAP, Parametric UMAP, Progressive UMAP이며 그것들이 어떻게 수립되었는가?

주요 결과

UMAP의 임베딩은 입력 공간과 임베딩 공간 간의 퍼지 위상 표현을 교차 엔트로피 목표를 사용하여 일치시키는 방식으로 안내된다.
임베딩 공간의 확률은 매개변수 a와 b를 갖는 코시 유사 형태를 사용하여, 더 빠른 최적화와 미니배치 업데이트와의 호환성을 가능하게 한다.
UMAP은 반발력을 근사하기 위해 음의 샘플링을 활용하여 대규모 데이터 세트에서의 확장 가능한 학습을 가능하게 한다.
비교 결과 UMAP, t-SNE, LargeVis는 매력적 및 반발 구성 요소를 가진 이웃 임베딩 철학을 공유하지만 정규화 및 효율성 특성에서 차이가 있다.
이론적 정당화는 UMAP의 비용을 퍼지 위상과 범주 간의 adjunction과 연결시켜 대수적 위상수학 및 범주 이론에 기반을 두도록 한다.
DensMAP, Parametric UMAP, Progressive UMAP와 같은 변형은 밀도 보존, 딥러닝 기반 임베딩 및 스트리밍/샘플 밖 데이터 처리를 UMAP에 확장한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.