QUICK REVIEW

[論文レビュー] Differential Properties of Sinkhorn Approximation for Learning with Wasserstein Distance

Giulia Luise, Alessandro Rudi|arXiv (Cornell University)|May 30, 2018

Mathematical Analysis and Transform Methods参考文献 1被引用数 75

ひとこと要約

この論文は、シャープ Sinkhorn 距離と正則化 Sinkhorn 距離の滑らかさを証明し、シャープ Sinkhorn 距離の明示的勾配を導出し、Wasserstein 距離を用いた学習への適用を示しており、普遍的一致性と学習率を含む理論的保証と予備実験をサポートする。

ABSTRACT

Applications of optimal transport have recently gained remarkable attention thanks to the computational advantages of entropic regularization. However, in most situations the Sinkhorn approximation of the Wasserstein distance is replaced by a regularized version that is less accurate but easy to differentiate. In this work we characterize the differential properties of the original Sinkhorn distance, proving that it enjoys the same smoothness as its regularized version and we explicitly provide an efficient algorithm to compute its gradient. We show that this result benefits both theory and applications: on one hand, high order smoothness confers statistical guarantees to learning with Wasserstein approximations. On the other hand, the gradient formula allows us to efficiently solve learning and optimization problems in practice. Promising preliminary experiments complement our analysis.

研究の動機と目的

精度と計算性のトレードオフに対処しつつ、Wasserstein 距離での学習のための Sinkhorn 距離の利用を動機づける。
標準の Sinkhorn 距離とシャープ Sinkhorn 距離の両方が滑らかであること（C^{∞}）を示し、学習のための実用的な勾配計算を導出する。
Sinkhorn 損失を用いる推定量に対して、理論的な学習保証（一貫性と収束率）を提供する。
Sinkhorn 損失とバリセンターを用いた学習を通じて適用可能性を実証し、予備的な経験的証拠を提供する。

提案手法

正則化された Sinkhorn 問題の対になる定式化を分析し、陰関数定理を用いて T_{\lambda}(a,b) が (a,b) において滑らかであることを示す。
対の解 (α_{*},β_{*}) と輸送計画 T_{\lambda} を用いたシャープ Sinkhorn 距離 S_{\lambda} の閉形式勾配を導出する（式 (14)–(15)）。
対の目的関数のヘッセ行列と低ランク更新を用いて ∇_{a}S_{\lambda}(a,b) を効率的に計算する Algorithm 1 を提供する。
勾配公式を用いてシャープ Sinkhorn 距離でバリセンター計算を行い、正則化 Sinkhorn バリセンターと定性的に比較する。
滑らかな Sinkhorn 損失を構造化予測学習フレームワークに組み込み、普遍的一致性と学習率を分析する（定理 4、定理 5）。
勾配計算とこれらの損失を学習タスクに適用する際の計算量と実践的な考慮事項について議論する。

実験結果

リサーチクエスチョン

RQ1シャープ Sinkhorn 距離と正則化 Sinkhorn 距離はどのような微分特性を有するか。
RQ2最適化ベースの学習を可能にするために、シャープ Sinkhorn 距離の明示的勾配を計算できるか。
RQ3滑らかな Sinkhorn 損失は、監視/構造化予測設定で理論的な学習保証（一貫性と収束率）をもたらすか。
RQ4実務上、シャープ Sinkhorn バリセンターと正則化 Sinkhorn バリセンターはどのように比較されるか、シャープ Sinkhorn は Wasserstein バリセンターの近似としてより良い近似を提供できるか。
RQ5勾配計算の実用的な計算コストはどの程度か、問題サイズに対してどのようにスケールするか。

主な発見

両方の Sinkhorn 距離は、定義域の内部で C^{\infty}（滑らか）である。
シャープ Sinkhorn 距離 S_{\lambda} の明示的勾配公式が、対の解と輸送計画（式 (14)）の形で導出される。
勾配計算は対のヘッセ行列と低ランク更新の管理に還元され、実用的な最適化を可能にする（Algorithm 1）。
著者らは、構造化予測フレームワーク内で滑らかな Sinkhorn 損失を最小化する学習手法の普遍的一致性を確立している（定理 4）。
標準的な正則性の下で、提案された推定量の学習率の境界を得ている（定理 5）。
予備的な実験では、シャープ Sinkhorn バリセンターが正則化 Sinkhorn バリセンターより著しくシャープになり、単純な状況で Wasserstein バリセンターの挙動と一致することを示している（例 1 および Fig. 2）。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。