[論文レビュー] Geometric Dataset Distances via Optimal Transport
モデル種別に依存せず、訓練を必要としないデータセット間の距離を、最適輸送を用いてラベルを特徴の分布としてモデリングすることで導入する。タスクとモダリティを跨いだ転移学習の難しさとの相関を示す。
The notion of task similarity is at the core of various machine learning paradigms, such as domain adaptation and meta-learning. Current methods to quantify it are often heuristic, make strong assumptions on the label sets across the tasks, and many are architecture-dependent, relying on task-specific optimal parameters (e.g., require training a model on each dataset). In this work we propose an alternative notion of distance between datasets that (i) is model-agnostic, (ii) does not involve training, (iii) can compare datasets even if their label sets are completely disjoint and (iv) has solid theoretical footing. This distance relies on optimal transport, which provides it with rich geometry awareness, interpretable correspondences and well-understood properties. Our results show that this novel distance provides meaningful comparison of datasets, and correlates well with transfer learning hardness across various experimental settings and datasets.
研究の動機と目的
- 特定の予測子や各データセットでの訓練に依存しないデータセット間の距離を動機づけ、形式化する。
- ラベル集合が非連結であっても特徴とラベルの結合分布を比較する実用的な OT ベースの枠組みを提案する。
- 大規模データセットで距離を計算するためのスケーラブルなアルゴリズム技術を提供する。
- 提案する距離が領域とモダリティを跨ぐ転移学習性能と相関することを経験的に検証する。
提案手法
- 特徴とラベルの連結空間を定義し、最適輸送を介してこの空間上の分布へ距離をリフトする。
- 各ラベルを特徴の分布としてモデリングし、これをガウス近似(平均と共分散)で表現して解析的な Wasserstein 距離を可能にする。
- 特徴距離とラベル分布距離(Gaussians の Wasserstein)を組み合わせた Ground Metric を計算する。
- 距離の計算をスケーラブルにするため、エントロピー正則化 OT(Sinkhorn)を用いる(OT とそのガウス変種)。
- グローバル OT 問題を高速化するためにラベル間距離を事前計算し、オンラインのバッチ統計を用いてスケーラビリティを高める。
実験結果
リサーチクエスチョン
- RQ1ラベル集合が非連結であってもデータセットの幾何を活用しつつ、 principled で訓練不要な距離を定義できるか。
- RQ2OT ベースのデータセット距離は多様なタスクとデータモダリティ間の転移学習性能を予測できるか。
- RQ3実世界の大規模データセットに対して OT ベースのデータセット距離を現実的な計算時間でスケールさせることは可能か。
- RQ4ガウス近似されたラベル分布は距離計算の真のラベル条件付き特徴分布をどれだけうまく近似するか。
主な発見
- 提案された OT ベースのデータセット距離(OTDD)は、特徴ラベル分布空間におけるデータセット間の有効な距離を定義する。
- ラベル条件付き特徴をガウスとして表現すると、閉形式の Wasserstein 距離が得られ、ガウス/楕円形ラベルに対しては厳密性を持つ実効的な距離(d_OTN)を得られる。
- MNIST 系列、USPS、EMNIST、Fashion-MNIST、Tiny-ImageNet、CIFAR-10、そして NLP データセットに対する OTDD と転移可能性の強い相関を実証的に示す。
- OTDD はデータ拡張の選択を導く指針となり、転移性を改善する変換を予測できる。
- 埋め込みを用いたテキスト分類(BERT)において OTDD が転移可能性と相関し、NLP への適用性を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。