Skip to main content
QUICK REVIEW

[論文レビュー] Efficient Task-Specific Data Valuation for Nearest Neighbor Algorithms

Ruoxi Jia, David Dao|arXiv (Cornell University)|Jul 1, 2019
Advanced Image and Video Retrieval Techniques参考文献 13被引用数 8
ひとこと要約

本稿では、K近傍法(KNN)モデルにおけるシャープレイ値ベースのデータバリュエーションを計算する正確かつ近似アルゴリズムを提案する。正確計算ではO(N log N)、局所性に敏感なハッシュ(LSH)を用いた近似ではO(N h(ϵ,K) log N)のサブ線形時間計算量を達成する。主な貢献は、ベースライン手法に比べて指数的性能向上を実現し、大規模なデータバリュエーションを効率的かつ公平に行えるようにすることである。実験では最大1000万点のデータセットで有効性を示した。

ABSTRACT

Given a data set $\mathcal{D}$ containing millions of data points and a data consumer who is willing to pay for \$$X$ to train a machine learning (ML) model over $\mathcal{D}$, how should we distribute this \$$X$ to each data point to reflect its "value"? In this paper, we define the "relative value of data" via the Shapley value, as it uniquely possesses properties with appealing real-world interpretations, such as fairness, rationality and decentralizability. For general, bounded utility functions, the Shapley value is known to be challenging to compute: to get Shapley values for all $N$ data points, it requires $O(2^N)$ model evaluations for exact computation and $O(N\log N)$ for $(ε, δ)$-approximation. In this paper, we focus on one popular family of ML models relying on $K$-nearest neighbors ($K$NN). The most surprising result is that for unweighted $K$NN classifiers and regressors, the Shapley value of all $N$ data points can be computed, exactly, in $O(N\log N)$ time -- an exponential improvement on computational complexity! Moreover, for $(ε, δ)$-approximation, we are able to develop an algorithm based on Locality Sensitive Hashing (LSH) with only sublinear complexity $O(N^{h(ε,K)}\log N)$ when $ε$ is not too small and $K$ is not too large. We empirically evaluate our algorithms on up to $10$ million data points and even our exact algorithm is up to three orders of magnitude faster than the baseline approximation algorithm. The LSH-based approximation algorithm can accelerate the value calculation process even further. We then extend our algorithms to other scenarios such as (1) weighed $K$NN classifiers, (2) different data points are clustered by different data curators, and (3) there are data analysts providing computation who also requires proper valuation.

研究の動機と目的

  • 大規模な機械学習市場において、データ貢献者に報酬分配を求める公平でスケーラブルなデータバリュエーションの課題に対処すること。
  • KNNモデルにおける効用関数の正確なシャープレイ値計算の指数的計算コストを克服すること。
  • 重みなしおよび重み付きKNN分類器・回帰器に対して、理論的保証を備えた実用的で効率的なアルゴリズムを開発すること。
  • 複数のデータポイントを1人の貢献者から得る状況や、計算資源貢献のバリュエーションへの拡張を図ること。

提案手法

  • 報酬配分における公平性、合理性、非中央集権性を保証するため、データバリューエーションをシャープレイ値(SV)で定義する。
  • 近隣の幾何的性質とソーティングベースの集約を活用することで、重みなしKNN分類器に対して正確なO(N log N)アルゴリズムを構築する。
  • 大規模データセット向けに、サブ線形時間計算量O(N h(ϵ,K) log N)のLSHベースの近似手法を提案する。ここで、K* = max{1/ϵ, K} < Cのときh(ϵ,K) < 1である。
  • モンテカルロ近似を用いて、重み付きKNN、1貢献者あたり複数ポイント、計算資源のバリュエーションへとフレームワークを拡張する。
  • O(N (log N)^2 / (log K)^2)の計算量を持つ新規モンテカルロ近似を提案し、これはベースラインのサンプリング手法に比べて著しく高速である。
  • KNNにおける局所性と対称性を活用して、重複する効用評価を削減し、効率的な限界貢献推定を可能にする。

実験結果

リサーチクエスチョン

  • RQ1KNNモデルにおける全データポイントのシャープレイ値を、指数的でない時間で正確に計算できるか?
  • RQ2LSHを用いることで、(ϵ, δ)-近似データバリュエーションにおいてサブ線形時間計算量を達成できるか?
  • RQ3重み付きKNNおよびデータキュレーターからの複数ポイント貢献に対して、効率的なデータバリュエーションをどのように拡張できるか?
  • RQ4共同機械学習環境において、データ貢献に加え計算資源貢献も効率的にバリュエートできるか?
  • RQ5提案手法がベースライン近似手法に比べて、理論的および実験的性能でどの程度向上するか?

主な発見

  • 重みなしKNN分類器における正確なシャープレイ値計算はO(N log N)時間で実行され、標準的なO(2^N)の計算量に比べて指数的改善が達成された。
  • LSHベースの近似はO(N h(ϵ,K) log N)のサブ線形時間計算量を達成し、最大1000万点のデータセットでも高速処理が可能である。
  • 実験的評価では、正確なアルゴリズムがベースライン近似手法に比べて最大3桁の速度向上を示した。
  • 重み付きKNNでは正確なアルゴリズムの計算量はO(NK)であり、依然として指数的であるが、モンテカルロ近似によりベースラインに比べてO(N (log N)^2 / (log K)^2)倍高速化された。
  • 提案手法は、近似誤差(ϵ, δ)に関する理論的保証を維持しながら、実行時間を著しく削減しており、シャープレイ値ベースのバリュエーションを大規模スケールで実用可能としている。
  • 実験結果から、LSHベースの近似は特にϵが非常に小さくなく、Kが中程度のとき、さらに計算を高速化することが明らかになった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。