[논문 리뷰] Efficient Task-Specific Data Valuation for Nearest Neighbor Algorithms
이 논문은 K-가까운 이웃(KNN) 모델에서 Shapley 값 기반 데이터 평가를 위한 정확한 및 근사 알고리즘을 제안하며, 정확한 계산은 O(N log N)을 달성하고, 국소성 감지 해싱(Locality Sensitive Hashing, LSH)을 통한 근사 계산은 하위선형(sublinear) O(N h(ϵ,K) log N)을 달성한다. 주요 기여는 기준 방법 대비 지수적 성능 향상이며, 이는 대규모 환경에서 효율적이고 공정한 데이터 평가를 가능하게 한다. 이는 최대 1,000만 개의 데이터 포인트를 포함한 데이터셋에서 입증되었다.
Given a data set $\mathcal{D}$ containing millions of data points and a data consumer who is willing to pay for \$$X$ to train a machine learning (ML) model over $\mathcal{D}$, how should we distribute this \$$X$ to each data point to reflect its "value"? In this paper, we define the "relative value of data" via the Shapley value, as it uniquely possesses properties with appealing real-world interpretations, such as fairness, rationality and decentralizability. For general, bounded utility functions, the Shapley value is known to be challenging to compute: to get Shapley values for all $N$ data points, it requires $O(2^N)$ model evaluations for exact computation and $O(N\log N)$ for $(ε, δ)$-approximation. In this paper, we focus on one popular family of ML models relying on $K$-nearest neighbors ($K$NN). The most surprising result is that for unweighted $K$NN classifiers and regressors, the Shapley value of all $N$ data points can be computed, exactly, in $O(N\log N)$ time -- an exponential improvement on computational complexity! Moreover, for $(ε, δ)$-approximation, we are able to develop an algorithm based on Locality Sensitive Hashing (LSH) with only sublinear complexity $O(N^{h(ε,K)}\log N)$ when $ε$ is not too small and $K$ is not too large. We empirically evaluate our algorithms on up to $10$ million data points and even our exact algorithm is up to three orders of magnitude faster than the baseline approximation algorithm. The LSH-based approximation algorithm can accelerate the value calculation process even further. We then extend our algorithms to other scenarios such as (1) weighed $K$NN classifiers, (2) different data points are clustered by different data curators, and (3) there are data analysts providing computation who also requires proper valuation.
연구 동기 및 목표
- 데이터 기여자가 수익 공유를 기대하는 대규모 머신러닝 시장에서 공정하고 확장 가능한 데이터 평가 문제를 해결하기 위해.
- KNN 모델의 유틸리티 함수에 대해 정확한 Shapley 값 계산의 지수적 계산 비용을 극복하기 위해.
- 무게 없는 및 가중 KNN 분류기 및 회귀기에서 증명 가능 보장을 갖춘 실용적이고 효율적인 알고리즘을 개발하기 위해.
- 데이터 기여자로부터 다수의 데이터 포인트가 제공되는 경우 및 계산 기여 평가를 포함한 시나리오로 데이터 평가를 확장하기 위해.
제안 방법
- 공정성, 합리성, 탈중앙화 가능성을 보장하는 Shapley 값(SV)을 사용해 데이터 가치를 정의한다.
- 근접 이웃의 기하적 성질과 정렬 기반 집계를 활용해 무게 없는 KNN 분류기의 정확한 O(N log N) 알고리즘을 개발한다.
- 대규모 데이터셋을 위한 하위선형 복잡도 O(N h(ϵ,K) log N)의 LSH 기반 근사 방법을 제안하며, 여기서 K* = max{1/ϵ, K} < C 이면 h(ϵ,K) < 1 이다.
- 몬테 카를로 근사 기법을 사용해 가중 KNN, 기여자당 다수의 데이터 포인트, 계산 기여 평가로의 프레임워크 확장을 수행한다.
- 기존 샘플링 대비 훨씬 빠른 O(N (log N)^2 / (log K)^2) 복잡도를 갖는 새로운 몬테 카를로 근사 기법을 사용한다.
- KNN의 국소성과 대칭성을 활용해 중복된 유틸리티 평가를 줄이고 효율적인 마진 기여 추정을 가능하게 한다.
실험 결과
연구 질문
- RQ1KNN 모델의 모든 데이터 포인트에 대해 정확한 Shapley 값을 지수적 시간보다 빠른 시간 내에 계산할 수 있는가?
- RQ2LSH를 사용해 (ϵ, δ)-근사 데이터 평가에 대해 하위선형 시간 복잡도를 달성할 수 있는가?
- RQ3무게 있는 KNN 및 데이터 기여자로부터 다수의 포인트 기여를 받는 경우에도 효율적인 데이터 평가를 어떻게 확장할 수 있는가?
- RQ4협업형 머신러닝 환경에서 데이터 기여와 계산 기여를 동시에 효율적으로 평가할 수 있는가?
- RQ5제안된 알고리즘이 기준 근사 방법 대비 이론적 및 실증적 성능 향상은 어느 정도인가?
주요 결과
- 무게 없는 KNN 분류기의 정확한 Shapley 값 계산은 O(N log N) 시간 내에 수행되며, 표준 O(2^N) 복잡도 대비 지수적 향상이다.
- LSH 기반 근사 방법은 하위선형 복잡도 O(N h(ϵ,K) log N)를 달성하여 최대 1,000만 개의 데이터 포인트를 포함한 데이터셋에서도 빠른 처리를 가능하게 한다.
- 실증 평가에서 정확한 알고리즘은 기준 근사 방법 대비 최대 세 자리 수의 속도 향상을 보였다.
- 가중 KNN의 경우 정확한 알고리즘은 O(NK)로 스케일링되며, 여전히 지수적 이지만 몬테 카를로 근사 기법을 통해 기준 대비 O(N (log N)^2 / (log K)^2) 배 빠른 성능 향상을 달성한다.
- 제안된 알고리즘은 근사 오차(ϵ, δ)에 대한 이론적 보장을 유지하면서도 런타임을 극적으로 감소시켜 Shapley 기반 평가를 대규모 환경에서 실용적으로 가능하게 한다.
- 실증 결과에 따르면, ϵ 이 너무 작지 않고 K가 중간 수준일 경우 LSH 기반 근사 방법이 계산을 더욱 가속화하는 것으로 나타났다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.