QUICK REVIEW

[논문 리뷰] Data Shapley: Equitable Valuation of Data for Machine Learning

Amirata Ghorbani, James Zou|arXiv (Cornell University)|2019. 04. 05.

Explainable Artificial Intelligence (XAI)인용 수 152

한 줄 요약

데이터 샷플리(Data Shapley)은 감독 학습에서 각 학습 데이터에 대한 공정하고 게임-이론에 기반한 가치를 제공하며, 몬테 카를로 방법으로 추정되고 다양한 모델과 작업에 적용될 수 있습니다.

ABSTRACT

As data becomes the fuel driving technological and economic growth, a fundamental challenge is how to quantify the value of data in algorithmic predictions and decisions. For example, in healthcare and consumer markets, it has been suggested that individuals should be compensated for the data that they generate, but it is not clear what is an equitable valuation for individual data. In this work, we develop a principled framework to address data valuation in the context of supervised machine learning. Given a learning algorithm trained on $n$ data points to produce a predictor, we propose data Shapley as a metric to quantify the value of each training datum to the predictor performance. Data Shapley value uniquely satisfies several natural properties of equitable data valuation. We develop Monte Carlo and gradient-based methods to efficiently estimate data Shapley values in practical settings where complex learning algorithms, including neural networks, are trained on large datasets. In addition to being equitable, extensive experiments across biomedical, image and synthetic data demonstrate that data Shapley has several other benefits: 1) it is more powerful than the popular leave-one-out or leverage score in providing insight on what data is more valuable for a given learning task; 2) low Shapley value data effectively capture outliers and corruptions; 3) high Shapley value data inform what type of new data to acquire to improve the predictor.

연구 동기 및 목표

감독 학습에서 공정한 데이터 가치 평가 프레임워크의 필요성을 동기 부여한다.
Data Shapley를 학습 알고리즘과 성능 지표에 대해 각 학습 데이터의 공정한 가치로 정의한다.
실제 설정에서 Data Shapley 값을 추정하기 위한 계산 방법을 제안한다.
데이터 품질 평가, 도메인 적응, 데이터 취득 결정에 대한 Data Shapley의 활용 사례를 보여준다.

제안 방법

학습 데이터 소스를 플레이어로 두고 결과를 모델 성능 V(D, A)로 하는 협력 게임으로 데이터 가치를 정식화한다.
세 가지 특성을 만족하는 고유한 가치를 분배로서 Data Shapley 값을 도출한다: 성능을 절대 바꾸지 않는 데이터에 대해 제로 값, 동일한 기여도에 대한 대칭성, 성능 점수 간의 가법성(Eqn. 1).
무작위 순열의 몬테카를로 샘플링을 사용하여 V에 대한 데이터 포인트의 한계 기여도를 추정하고, 이를 Shapley 유사 추정기로 얻는다.
순열 탐색 중에 무의미한 한계 기여도를 가지치기하여 계산량을 줄이는 Truncated Monte Carlo Shapley(TMC-Shapley)를 도입한다.
특정 학습 알고리즘에 맞춘 두 번째 근사치를 제공한다(부록 B의 세부 내용).
Data Shapley가 데이터 품질을 식별하고 가중 손실을 통해 도메인 적응을 안내하며 데이터 취득 선택을 알리는 응용 분야를 논의한다.

실험 결과

연구 질문

RQ1선택된 성능 지표에 대해 감독 학습에서 각 학습 데이터에 대한 공정한 통계적 가치는 무엇인가?
RQ2대규모 데이터셋과 복잡한 모델에 대해 Data Shapley 값을 어떻게 효율적으로 추정할 수 있는가?
RQ3Data Shapley 값이 데이터 품질을 드러내고, 도메인 적응을 돕고, 데이터 취득을 안내할 수 있는가?
RQ4가치 있는 데이터나 해로운 데이터를 식별하는 데 있어 Leave-one-out이나 leverage-based 지표와 Data Shapley의 비교는 어떠한가?
RQ5실제 생의학 및 이미지 데이터셋에서 Data Shapley를 적용했을 때의 실용적 함의와 한계는 무엇인가?

주요 결과

Data Shapley는 세 가지 자연스러운 공정성 특성을 존중하는 학습 데이터에 대한 공정한 가치 평가 프레임워크를 제공한다.
실험에서 Data Shapley는 Leave-one-out이나 leverage 점수보다 가치 있는 데이터를 더 효과적으로 식별한다.
낮은 Shapley 값을 가진 데이터는 이상치나 오염을 포착하는 경향이 있고, 높은 Shapley 값을 가진 데이터는 예측모형을 개선하는 데 정보성이 높은 샘플을 나타낸다.
Data Shapley는 고가치 데이터와 유사한 샘플을 우선순위로 하여 데이터 취득을 안내하고 도메인 적응을 위한 학습 데이터의 가중 재조정을 하는 데 사용할 수 있다.
이 프레임워크는 헬스케어 데이터 가치 평가, 이미지 데이터 품질 평가, 교차 센터 도메인 적응 등 실제 응용을 뒷받침한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.