QUICK REVIEW

[論文レビュー] Towards Efficient Data Valuation Based on the Shapley Value

Ruoxi Jia, David Dao|arXiv (Cornell University)|Feb 27, 2019

Game Theory and Voting Systems被引用数 185

ひとこと要約

本論文はShapley値を用いたデータ評価を研究し、大規模なMLデータセットにおけるデータ貢献量を推定する効率的な近似アルゴリズムを開発し、適正な報酬設計およびデータ市場設計への適用性を示す。

ABSTRACT

"How much is my data worth?" is an increasingly common question posed by organizations and individuals alike. An answer to this question could allow, for instance, fairly distributing profits among multiple data contributors and determining prospective compensation when data breaches happen. In this paper, we study the problem of data valuation by utilizing the Shapley value, a popular notion of value which originated in cooperative game theory. The Shapley value defines a unique payoff scheme that satisfies many desiderata for the notion of data value. However, the Shapley value often requires exponential time to compute. To meet this challenge, we propose a repertoire of efficient algorithms for approximating the Shapley value. We also demonstrate the value of each training instance for various benchmark datasets.

研究の動機と目的

Shapley値を用いてML設定におけるデータ貢献の公正な評価を動機付ける。
大規模データセットにおけるSV計算の計算上の課題に対処する。
さまざまな仮定の下で証明可能な保証を伴うスケーラブルな近似アルゴリズムを開発する。
安定性・滑らかさ・増分学習を活用したMLタスク向けの実用的な推定量を探求する。
実現性とスケーラビリティを示すため、ベンチマークデータセットで実証的検証を提供する。

提案手法

データ点をプレイヤーとし、データセットに基づくモデル性能を効用とする協力ゲームとしてデータ評価を定式化する。
SV推定のための確率的保証を伴うベースラインの置換サンプリング法を開発する。
ユーティリティ評価を削減するためのグループテストを用いたSV推定アルゴリズムを導入する。
データ値の潜在的なスパース性を活用してSV回復を行う圧縮センシングのアイデア（ランダムBernoulli測定）を適用する。
学習アルゴリズムの安定性を活用して一様値分割を近似として正当化する。
MLモデルのSV推定を加速するために影響関数ベースのヒューリスティクスを組み込む。

実験結果

リサーチクエスチョン

RQ1Shapley値は、証明可能な保証を伴って大規模なMLデータセットにおけるデータ評価のために効率的に近似できるか？
RQ2さまざまな仮定（有界なユーティリティ、単調/疎な値、安定性、滑らかな損失）がSV推定の効率と精度にどのように影響するか？
RQ3実用的な推定量（グループテスティング、圧縮センシング、影響関数）が、一般的なMLタスクでどれだけ良く機能するか？
RQ4実践的にはSVベースのデータ評価がプライバシーと敵対的ロバストネスとどのように関連するか？

主な発見

有界なユーティリティの下で、O(N(log N)^2) のモデル評価アルゴリズムは、証明可能な誤差保証を持ってSVを近似できる。
ユーティリティが単調でSVが疎な場合、インクリメンタルメンテナンスによりモデル訓練回数をO(log log N)に減らせる。
グループテストベースのSV推定は、ベースラインの置換サンプリングと比べてユーティリティ評価を大幅に削減する。
圧縮置換サンプリングは、疎性仮定の下でO(N log N log log N)回の評価でSVを回復できる。
最大サブセット近似を活用する場合に特に、影響関数ベースのヒューリスティクスがSV推定を加速できる。
安定した学習アルゴリズムはほぼ一様なデータ値を生み出し、実用的な近似として一様値分割を支持する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。