QUICK REVIEW

[論文レビュー] Sliced Gromov-Wasserstein

Titouan Vayer, Rémi Flamary|arXiv (Cornell University)|May 24, 2019

Adversarial Robustness in Machine Learning参考文献 59被引用数 25

ひとこと要約

本稿では、異なる距離空間に存在する確率分布を比較するための計算効率の良いGromov-Wasserstein (GW)距離の近似として、Sliced Gromov-Wasserstein (SGW)を導入する。1次元GWの閉形式解を活用し、ランダムな射影による平均化を施すことで、SGWはO(Ln log n)の計算量を達成する—これはGWに比べて桁違いに高速であり、GANの訓練やメッシュマッチングといった大規模な機械学習タスクにおいても、重要な性質を保持する。

ABSTRACT

Recently used in various machine learning contexts, the Gromov-Wasserstein distance (GW) allows for comparing distributions whose supports do not necessarily lie in the same metric space. However, this Optimal Transport (OT) distance requires solving a complex non convex quadratic program which is most of the time very costly both in time and memory. Contrary to GW, the Wasserstein distance (W) enjoys several properties (e.g. duality) that permit large scale optimization. Among those, the solution of W on the real line, that only requires sorting discrete samples in 1D, allows defining the Sliced Wasserstein (SW) distance. This paper proposes a new divergence based on GW akin to SW. We first derive a closed form for GW when dealing with 1D distributions, based on a new result for the related quadratic assignment problem. We then define a novel OT discrepancy that can deal with large scale distributions via a slicing approach and we show how it relates to the GW distance while being $O(n\log(n))$ to compute. We illustrate the behavior of this so called Sliced Gromov-Wasserstein (SGW) discrepancy in experiments where we demonstrate its ability to tackle similar problems as GW while being several order of magnitudes faster to compute.

研究の動機と目的

Gromov-Wasserstein (GW)距離の高い計算コスト（O(n³)スケーリング）を解決し、大規模な機械学習用途における利用を制限している要因を軽減すること。
異なる距離空間における分布比較を可能にするスケーラブルなGWの代替手法を開発すること。
1次元GWの構造を活用し、Sliced Wassersteinと同様にランダム射影を用いて効率的な計算を実現すること。
スライシングアプローチの妥当性について理論的裏付けを提供すること（ただし、定理3.1の元々の証明には既知の誤りが存在する）。
SGWの実用的有用性を、GANの訓練や3次元メッシュマッチングといった大規模応用において示すこと。

提案手法

ユークリッド距離行列に対する準最適割り当て問題（QAP）に関する新規な結果を用いて、1次元確率分布間のGromov-Wasserstein距離の閉形式解を導出する。
Sliced Gromov-Wasserstein (SGW)不一致を、入力分布を単位球面上にL回のランダム射影した上で、1次元GW距離の平均として定義する。
1次元におけるソーティングと最適輸送を用いて、1つの射影あたりO(n log n)時間で1次元GW距離を効率的に計算する。
L個のランダム方向をサンプリングし、データを射影し、各射影について1次元GWを計算して平均化することでSGW距離を構築するアルゴリズムを提案する。
データの直交変換の最小化によって得られる回転不変バージョンRISWを導入し、回転に対してより頑健になるようにする。
各射影のコストをnに線形に削減するための効率的な数値的テクニックを実装し、大規模な展開を可能にする。

実験結果

リサーチクエスチョン

RQ1スライシングに基づくアプローチを用いることで、Gromov-Wasserstein距離を計算効率を保ちつつ近似可能か？
RQ2Sliced Gromov-Wasserstein距離は、分布が同型である場合に正しい不一致となるというGWの理論的性質を保持するか？
RQ3SGWは、GWおよびSliced Wassersteinと比較して、大規模な学習タスクにおける計算複雑度と性能で優れているか？
RQ4SGWは、分布比較が極めて重要な深層生成モデル（GANなど）において効果的に利用可能か？
RQ5SGW不一致は入力データの回転に対して不変か？また、Sliced Wassersteinの回転不変バージョンと比較してどうか？

主な発見

Sliced Gromov-Wasserstein (SGW)距離は、標準的なGWのO(n³)と比べて桁違いに高速なO(Ln log n)時間で計算可能である。
SGW(μ, ν) = 0 ならば GW₂(d, μ, ν) = 0 であるという、元のGW距離と整合性を保つ重要な性質を保持している。
らせん型データセットにおける実験では、回転不変バージョンRISGWを用いることでSGWは回転に対して不変であるのに対し、標準的なSWとは異なり不変でないことが示された。
GANの訓練において、SGWは2次元および3次元の分布を効果的に学習でき、1000エポックの間に生成されたサンプルがターゲット分布に収束した。
メッシュマッチングや生成モデルのタスクにおいて、SGWはGWと同等の性能を達成しているが、計算時間が桁違いに速い。
定理3.1の証明に既知の誤りが存在するものの、数値シミュレーションの結果、論文の理論的主張は実際には成り立っており、手法は依然として有効であることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。