[論文レビュー] Data Shapley: Equitable Valuation of Data for Machine Learning
Data Shapley は、監督付き学習における各訓練データに対して、公平でゲーム理論に基づく値を提供し、モンテカルロ法で推定され、さまざまなモデルやタスクに適用可能です。
As data becomes the fuel driving technological and economic growth, a fundamental challenge is how to quantify the value of data in algorithmic predictions and decisions. For example, in healthcare and consumer markets, it has been suggested that individuals should be compensated for the data that they generate, but it is not clear what is an equitable valuation for individual data. In this work, we develop a principled framework to address data valuation in the context of supervised machine learning. Given a learning algorithm trained on $n$ data points to produce a predictor, we propose data Shapley as a metric to quantify the value of each training datum to the predictor performance. Data Shapley value uniquely satisfies several natural properties of equitable data valuation. We develop Monte Carlo and gradient-based methods to efficiently estimate data Shapley values in practical settings where complex learning algorithms, including neural networks, are trained on large datasets. In addition to being equitable, extensive experiments across biomedical, image and synthetic data demonstrate that data Shapley has several other benefits: 1) it is more powerful than the popular leave-one-out or leverage score in providing insight on what data is more valuable for a given learning task; 2) low Shapley value data effectively capture outliers and corruptions; 3) high Shapley value data inform what type of new data to acquire to improve the predictor.
研究の動機と目的
- 監督付き学習における公正なデータ評価フレームワークの必要性を動機づける。
- Data Shapley を、学習アルゴリズムとパフォーマンス指標に関して各訓練データの公正な値として定義する。
- 実務の設定で Data Shapley 値を推定する計算手法を提案する。
- データ品質評価、ドメイン適応、データ取得決定のための Data Shapley の適用を示す。
提案手法
- 訓練データ源をプレーヤーとし、結果をモデル性能 V(D, A) とする協力ゲームとしてデータ評価を定式化する。
- 性能を決して変えないデータにはゼロ値、等しい寄与には対称性、性能スコア間の加法性(式(Eqn. 1))を満たす唯一の値の分布として Data Shapley 値を導出する。
- データ点の V への限界寄与を推定するために、ランダム置換のモンテカルロサンプリングを用い、Shapley に類似した推定量を得る。
- Permutation scanning 中に有意でない限界寄与を剪定して計算を削減する Truncated Monte Carlo Shapley(TMC-Shapley)を導入する。
- 特定の学習アルゴリズムに合わせた別の近似を提供する(Appendix B に詳細)。
- Data Shapley がデータ品質を識別し、重み付き損失を通じてドメイン適応を案内し、データ取得の選択を知らせる応用について説明する。
実験結果
リサーチクエスチョン
- RQ1選択されたパフォーマンス指標に関して、監督付き学習における各訓練データの公正な統計値とは何か?
- RQ2大規模データセットと複雑なモデルに対して Data Shapley 値をどのように効率的に推定できるか?
- RQ3Data Shapley 値はデータ品質を明らかにし、ドメイン適応を支援し、データ取得を導くことができるか?
- RQ4価値の高いデータや有害なデータを識別する際、Data Shapley は Leave-One-Out やレバレッジベース指標とどう比較されるか?
- RQ5実世界の生物医学データセットと画像データセットへの Data Shapley 適用の実務的影響と制約は何か?
主な発見
- Data Shapley は、3つの自然な公正性の性質を尊重する訓練データの公正な評価フレームワークを提供する。
- 実験では、Data Shapley は Leave-One-Out やレバレッジスコアよりも価値のあるデータをより効果的に識別する。
- Shapley 値が低いデータは外れ値や汚染を捉える傾向があり、高い Shapley 値のデータは予測子を改善する有益なサンプルを示す。
- Data Shapley は高価値データと類似したサンプルを優先してデータ取得を導くことができ、ドメイン適応のための訓練データの再重み付けにも利用できる。
- このフレームワークは、医療データの評価、画像データ品質評価、クロスセンターのドメイン適応など、実世界の応用をサポートする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。