QUICK REVIEW

[논문 리뷰] Sliced Gromov-Wasserstein

Titouan Vayer, Rémi Flamary|arXiv (Cornell University)|2019. 05. 24.

Adversarial Robustness in Machine Learning참고 문헌 59인용 수 25

한 줄 요약

이 논문은 서로 다른 거리 공간에 있는 확률 분포를 비교하기 위한 계산적으로 효율적인 Gromov-Wasserstein(GW) 거리의 근사치인 Sliced Gromov-Wasserstein(SGW)을 소개한다. 1차원 GW에 대한 폐쇄형 해를 활용하고 무작위 투영에 대해 평균을 내어, SGW는 O(Ln log n)의 복잡도를 가지며, GW보다 수개의 주기 빠르게 작동하면서도 대규모 기계 학습 작업(예: GAN 학습 및 메쉬 매칭)에 필요한 핵심 성질을 유지한다.

ABSTRACT

Recently used in various machine learning contexts, the Gromov-Wasserstein distance (GW) allows for comparing distributions whose supports do not necessarily lie in the same metric space. However, this Optimal Transport (OT) distance requires solving a complex non convex quadratic program which is most of the time very costly both in time and memory. Contrary to GW, the Wasserstein distance (W) enjoys several properties (e.g. duality) that permit large scale optimization. Among those, the solution of W on the real line, that only requires sorting discrete samples in 1D, allows defining the Sliced Wasserstein (SW) distance. This paper proposes a new divergence based on GW akin to SW. We first derive a closed form for GW when dealing with 1D distributions, based on a new result for the related quadratic assignment problem. We then define a novel OT discrepancy that can deal with large scale distributions via a slicing approach and we show how it relates to the GW distance while being $O(n\log(n))$ to compute. We illustrate the behavior of this so called Sliced Gromov-Wasserstein (SGW) discrepancy in experiments where we demonstrate its ability to tackle similar problems as GW while being several order of magnitudes faster to compute.

연구 동기 및 목표

Gromov-Wasserstein(GW) 거리의 높은 계산 비용(스케일링이 O(n³)임)을 해결하여 대규모 기계 학습에서의 활용을 제한하는 문제를 해결한다.
다른 거리 공간 간의 분포를 비교할 수 있는 능력을 유지하면서도 확장 가능한 GW의 대안을 개발한다.
1차원 GW의 구조를 활용하여, Sliced Wasserstein과 유사하게 무작위 투영을 통해 효율적인 계산을 가능하게 한다.
슬라이싱 접근법의 타당성에 대한 이론적 근거를 제공한다. 다만 원래 논문의 정리 3.1에 알려진 오류가 존재하나, 이는 실제 적용에 영향을 주지 않는다.
SGW가 GAN 학습 및 3차원 메쉬 매칭과 같은 대규모 응용 분야에서 실용적으로 효과적으로 사용될 수 있음을 보여준다.

제안 방법

유클리드 거리 행렬에 대한 새로운 Quadratic Assignment Problem(QAP) 결과를 활용하여, 1차원 확률 분포 간의 Gromov-Wasserstein 거리에 대한 폐쇄형 해를 유도한다.
Sliced Gromov-Wasserstein(SGW) 비일치도를 입력 분포를 단위 구면에 무작위로 투영한 L개의 경우에 대해 1차원 GW 거리의 평균으로 정의한다.
1차원에서의 정렬 및 최적 운반 이론을 활용하여, 각 투영에 대해 O(n log n) 시간 내에 1차원 GW 거리를 효율적으로 계산한다.
L개의 무작위 방향을 샘플링하고, 데이터를 투영하며, 각 투영에 대해 1차원 GW를 계산한 후 결과를 평균내어 SGW 거리를 구성하는 알고리즘을 제안한다.
데이터의 정규직교 변환에 대해 최소화함으로써 회전 불변성 변형인 RISW를 도입하여, 회전에 대한 강건성을 향상시킨다.
각 투영 비용을 n에 대해 선형으로 줄이는 데 효과적인 수치 기법을 구현하여 대규모 적용을 가능하게 한다.

실험 결과

연구 질문

RQ1슬라이싱 기반 접근법을 통해 Gromov-Wasserstein 거리를 효율적으로 근사할 수 있는가?
RQ2Sliced Gromov-Wasserstein 거리는 분포가 등장하는 경우에 정확한 비일치도로 간주되는 GW의 이론적 성질을 유지하는가?
RQ3SGW는 계산 복잡도와 대규모 학습 작업에서의 성능 면에서 GW 및 Sliced Wasserstein과 비교해 어떻게 다른가?
RQ4SGW는 분포 비교가 핵심적인 딥 생성 모델(GAN)에서 효과적으로 사용될 수 있는가?
RQ5SGW 비일치도는 입력 데이터의 회전에 대해 불변한가? 또한 Sliced Wasserstein의 회전 불변 변형과 비교해 어떻게 다른가?

주요 결과

Sliced Gromov-Wasserstein(SGW) 거리는 기존 GW의 O(n³) 복잡도보다 훨씬 빠른 O(Ln log n) 시간 내에 계산 가능하다.
SGW(μ, ν) = 0 이면 GW₂(d, μ, ν) = 0 임을 보장하는 핵심 성질을 유지하여, 등장성 조건 하에서 원래 GW 거리와 일致함을 보장한다.
螺旋 데이터셋에 대한 실험 결과, RISGW를 사용할 경우 SGW는 표준 SW와 달리 회전에 대해 불변임을 입증하였다.
GAN 학습에서 SGW를 사용하면 2차원 및 3차원 분포를 효과적으로 학습할 수 있으며, 1000 에포크 동안 생성 샘플이 목표 분포로 수렴함을 관찰하였다.
메쉬 매칭 및 생성 모델링과 같은 작업에서 SGW는 GW와 유사한 성능를 보였지만, 계산 속도는 수개의 주기 빠르게 작동하였다.
정리 3.1의 증명에 알려진 오류가 존재하나, 수치 시뮬레이션 결과 이론적 주장이 실제로는 성립하며, 방법은 여전히 효과적임을 확인하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.