Skip to main content
QUICK REVIEW

[論文レビュー] Ground Metric Learning

Marco Cuturi, David Avis|arXiv (Cornell University)|Oct 11, 2011
Data Management and Algorithms参考文献 42被引用数 68
ひとこと要約

本稿では、ラベル付きヒストグラムから部分線形勾配降下法を用いた凸関数の差の最適化により、輸送距離(例:Earth Mover's Distance)のためのグランドメトリックを自動で学習するグランドメトリック学習(GML)を提案する。この手法は、GIST特徴量を用いたCaltech-256などの画像データセットにおいて、固定またはヒューリスティックなグランドメトリックよりも分類精度を向上させる。

ABSTRACT

Transportation distances have been used for more than a decade now in machine learning to compare histograms of features. They have one parameter: the ground metric, which can be any metric between the features themselves. As is the case for all parameterized distances, transportation distances can only prove useful in practice when this parameter is carefully chosen. To date, the only option available to practitioners to set the ground metric parameter was to rely on a priori knowledge of the features, which limited considerably the scope of application of transportation distances. We propose to lift this limitation and consider instead algorithms that can learn the ground metric using only a training set of labeled histograms. We call this approach ground metric learning. We formulate the problem of learning the ground metric as the minimization of the difference of two polyhedral convex functions over a convex set of distance matrices. We follow the presentation of our algorithms with promising experimental results on binary classification tasks using GIST descriptors of images taken in the Caltech-256 set.

研究の動機と目的

  • 輸送距離におけるグランドメトリックが従来、ドメイン知識に基づいて事前に設定されてきたという制限を解決すること。
  • ヒストグラムベースの分類タスクの性能を向上させるために、グランドメトリックを適応的に学習する教師あり学習フレームワークを提案すること。
  • グランドメトリック学習を、距離行列上での凸関数の差を最小化する凸最適化問題として定式化すること。
  • 二値画像分類タスクにおいて、GIST記述子を用いて本手法を実証的に評価し、固定メトリックを用いたベースラインEMDと比較すること。

提案手法

  • グランドメトリック学習を、凸集合上の距離行列に対して、二つの多面体凸関数の差として定式化された基準を最小化する問題として定式化する。
  • 非凸な目的関数の局所的最小値を求めるために、射影部分線形勾配降下法を用いる。
  • 通常の表(ラベル類似度に基づく)や独立性表(ランダム初期化)を含む、複数の戦略を用いて降下を初期化する。
  • ラベル付きヒストグラムペアの学習に本アルゴリズムを適用し、反復的にグランドメトリックを改善することで分類誤差を低減する。
  • トレーニング中に最適輸送計画を効率的に計算するために、ウォームスタートを用いたネットワークシンプレックス法を適用する。
  • 学習されたメトリックをk-NN分類器に統合し、テストデータにおける性能を評価する。

実験結果

リサーチクエスチョン

  • RQ1ラベル付きヒストグラムから、分類性能を向上させるためにEarth Mover's Distance用のグランドメトリックを学習可能か?
  • RQ2ヒストグラムベースの分類において、学習されたグランドメトリックは、手作業で作成されたまたはデフォルトのメトリックと比較してどの程度優れているか?
  • RQ3グランドメトリック最適化における初期化戦略として、どの戦略が収束性と精度を最も高めるか?
  • RQ4学習されたメトリックは、異なるk-NN近傍設定に一般化可能か?
  • RQ5コンピュータビジョンにおける複雑な特徴量(例:GIST記述子)に対しても、グランドメトリック学習は効果的に適用可能か?

主な発見

  • 提案手法のGML-EMDは、固定グランドメトリックを用いたEMDと比較して優れた分類精度を達成しており、特にk-NN近傍数が学習設定と一致する場合に顕著である。
  • ラベル類似度に基づく通常の表による初期化が、独立性表よりも顕著に優れており、情報に基づいた初期化の価値を示している。
  • 性能曲線から、k-3のk-NN分類器を用いる場合にGML-EMDが最も優れた性能を示しており、学習と推論の設定が整合していることを確認している。
  • 「Typ∞」メトリックを用いたベースラインEMDと比較して、本手法は一貫して性能を向上させていることから、適応的メトリック学習の利点が裏付けられている。
  • 計算コストは管理可能であり、主なボトル neck は繰り返しの最適輸送計算である。したがって、下界の導入やより高速なEMDソルバーの導入により、高速化が期待できる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。