QUICK REVIEW

[論文レビュー] A Distributional Framework for Data Valuation

Amirata Ghorbani, Michael P. Kim|arXiv (Cornell University)|Feb 27, 2020

Explainable Artificial Intelligence (XAI)参考文献 23被引用数 26

ひとこと要約

この論文は、固定されたデータセットに依存するのではなく、根本的なデータ分布に基づいてデータポイントの価値を定義する、新しい枠組みである分布的シャープレイを紹介している。これにより、異なるデータ抽出に対して統計的安定性と一貫性が保証され、形式的な近似保証とともに、より高速で信頼性の高いデータ評価が可能になる。本手法は、データ価格設定の応用において優れた性能を示している。

ABSTRACT

Shapley value is a classic notion from game theory, historically used to quantify the contributions of individuals within groups, and more recently applied to assign values to data points when training machine learning models. Despite its foundational role, a key limitation of the data Shapley framework is that it only provides valuations for points within a fixed data set. It does not account for statistical aspects of the data and does not give a way to reason about points outside the data set. To address these limitations, we propose a novel framework -- distributional Shapley -- where the value of a point is defined in the context of an underlying data distribution. We prove that distributional Shapley has several desirable statistical properties; for example, the values are stable under perturbations to the data points themselves and to the underlying data distribution. We leverage these properties to develop a new algorithm for estimating values from data, which comes with formal guarantees and runs two orders of magnitude faster than state-of-the-art algorithms for computing the (non-distributional) data Shapley values. We apply distributional Shapley to diverse data sets and demonstrate its utility in a data market setting.

研究の動機と目的

従来のデータシャープレイが固定された学習データセットに依存しており、データ抽出ごとに統計的一致性に欠けるという限界を解消すること。
データ分布内でのデータポイントの本質的価値を反映するデータ評価フレームワークを構築し、データ市場における公平で転送可能な価格設定を可能にすること。
データポイントや根本的な分布に対する摂動に対しても価値の安定性を確保することで、耐性と信頼性を向上させること。
形式的な近似保証を持つ計算効率の高いアルゴリズムを設計し、最先端手法に比べて著しく高速に動作させること。
実世界のデータセットを用いたデータ市場設定において、本フレームワークを実証的に検証し、買い手と売り手の両方で一貫した評価が得られることを示すこと。

提案手法

根本的なデータ分布 𝒟 からのi.i.d.抽出に基づく、分布的シャープレイを、その分布上での期待値として定式化する。
データポイント z の価値を E_B∼𝒟^n [φ(z; U, B)] として定義する。ここで φ は、ランダムなデータセット B における標準的なデータシャープレイ値である。
あるデータポイント z をランダムサブセットに追加した際の期待限界性能向上に等しいという数学的恒等式を活用する。
この恒等式を基に、不偏推定器を構築するサンプリングベースのアルゴリズム 𝒟-Shapley を開発し、形式的な近似保証を有する。
安定性の性質に基づく理論的最適化を用いて、正確性を損なわずに計算コストを2桁減少させる。
多様な機械学習タスクにわたる分布的シャープレイ値の効率的推定のために、分散低減技術を用いたモンテカルロサンプリングを採用する。

実験結果

リサーチクエスチョン

RQ1根本的なデータ分布に根ざすことで、固定された学習データセットに依存しないデータ評価が可能になるか？
RQ2提案された分布的シャープレイフレームワークは、データポイントやデータ分布に対する摂動に対しても安定性を保つのか？
RQ3同じ分布から抽出された異なるデータセットを持つ買い手に対しても、本フレームワークは一貫したデータ価格設定を可能にするか？
RQ4従来のデータシャープレイアルゴリズムに比べ、分布的シャープレイの推定を著しく高速化できるか、かつ正確性を維持できるか？
RQ5データセットの平均化に起因するため、分布的シャープレイは微分プライバシーなどのプライバシー保護技術と互換性を持つのか？

主な発見

分布的シャープレイ値は、個々のデータポイントおよび根本的なデータ分布に対する摂動に対しても安定しており、これは標準的なデータシャープレイでは一般的に成り立たない性質である。
𝒟-Shapley アルゴリズムは、非分布的データシャープレイ値を計算する最先端手法に比べ、2桁の速度向上を達成しており、形式的な近似保証を有している。
データ価格設定の実験では、売り手が推定した分布的シャープレイ値と買い手が推定したデータシャープレイ値の順位相関が一貫して高く（例：複数のデータセットで ~0.6–0.9）、強い一貫性が示された。
買い手のデータセットに、分布的シャープレイ値の順にデータポイントを追加した場合、買い手が推定した順序で追加した場合と同等のモデル精度向上が得られ、ランダム順に追加するのよりも優れていた。
売り手と買い手の両方が推定したデータセット全体の価値に対する絶対誤差は低く（多くの場合 <10%）、分布的シャープレイがほぼ不偏な価格設定を提供していることが示された。
同じ分布から抽出された異なるデータセットに対しても、本フレームワークは一貫した評価を可能にし、データが当事者間で移転される実世界のデータマーケットプレイスに適している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。