[논문 리뷰] Fair Data Adaptation with Quantile Preservation
이 논문은 구조적 인과 모델에서 분위수 보존을 통해 데이터를 변환하는 전처리 방법을 제안하며, 모델 오Specification에 관계없이 분류기 간의 공정성을 보장한다. 보호되는 특성에 대한 간섭 시 반사적 분위수를 보존함으로써, 전체 집단 수준의 공정성(예: 인구 통계적 평등, 반사적 공정성)을 보장하며, 이는 기초 인과 모델이 잘못되었을 경우에도 성립한다. Random Forests를 통해 실증 검증이 이루어졌고, R 패키지(fairadapt)로도 제공된다.
Fairness of classification and regression has received much attention recently and various, partially non-compatible, criteria have been proposed. The fairness criteria can be enforced for a given classifier or, alternatively, the data can be adapated to ensure that every classifier trained on the data will adhere to desired fairness criteria. We present a practical data adaption method based on quantile preservation in causal structural equation models. The data adaptation is based on a presumed counterfactual model for the data. While the counterfactual model itself cannot be verified experimentally, we show that certain population notions of fairness are still guaranteed even if the counterfactual model is misspecified. The precise nature of the fulfilled non-causal fairness notion (such as demographic parity, separation or sufficiency) depends on the structure of the underlying causal model and the choice of resolving variables. We describe an implementation of the proposed data adaptation procedure based on Random Forests and demonstrate its practical use on simulated and real-world data.
연구 동기 및 목표
- 모델을 사후 수정하는 대신, 모든 분류기가 공정성 기준을 만족하도록 데이터를 변환함으로써 기계학습에서의 공정성을 해결하는 것.
- 보호된 특성에 대한 간섭 하에서 분위수를 보존하는 원리에 기반한 실용적인 전처리 접근법을 제공하며, 이는 인과 구조 방정식 모델(SEM)에 기반한다.
- 가정된 인과 모델이 잘못되었을 경우에도 공정성 개념(예: 인구 통계적 평등, 반사적 공정성)이 유지됨을 보여주는 것.
- 사용자가 해소 가능한 변수와 비해소 가능한 변수를 정의할 수 있도록 허용함으로써, 인과 경로를 명시적으로 모델링할 수 있는 탄력적인 공정성 제어를 가능하게 하는 것.
- Random Forests를 사용하여 방법을 구현하고 검증하며, 실용적 사용을 위해 R 패키지(fairadapt)로 배포하는 것.
제안 방법
- 각 변수가 부모 변수와 잠재된 균등 분위수 변수 U의 함수인 비모수적 구조 방정식 모델(NPSEM)을 사용한다.
- 분위수 보존 가정(QPA)을 적용한다: 보호된 특성 A에 대한 do-간섭 하에서도 조건부 분위수 U는 변화하지 않는다.
- 반사적 값 X(A = a, U = u)를 정의한다: A = a로의 간섭 하에서 U를 고정한 상태에서의 결과를 의미한다.
- 알고리즘 1을 통해 데이터 적응을 구현하며, 부모 변수를 이용해 순차적으로 변환된 값을 계산한다. 적응 부모 집합(aps)을 통해 불공정한 경로를 선택적으로 제거한다.
- 해소 가능한 변수의 경우 aps(R) = ∅; 비해소 가능한 변수의 경우 aps(X) = pa(X)로 설정하여, 보호된 특성으로부터의 불공정한 영향을 선택적으로 제거할 수 있다.
- 적응된 데이터에서 예측을 위해 Random Forests를 사용하며, 이는 공정성 및 성능 평가의 실용적 구현과 평가를 가능하게 한다.
실험 결과
연구 질문
- RQ1분위수 보존 기반의 데이터 적응이 모델 오Specification 상황에서도, 적응된 데이터로 훈련된 모든 분류기 간에 공정성을 보장할 수 있는가?
- RQ2해소 가능한 변수와 비해소 가능한 변수의 선택이 결과 분류기의 공정성 특성에 어떤 영향을 미치는가?
- RQ3오인과 모델이 잘못되었을 경우, 반사적 공정성과 인구 통계적 평등을 어느 정도 보장할 수 있는가?
- RQ4Random Forests와 같은 표준 기계학습 알고리즘을 사용해 이 방법을 실용적으로 구현하고 확장할 수 있는가?
- RQ5기존의 전처리 공정성 기법과 비교했을 때, 이 방법은 공정성과 예측 성능 측면에서 어떤가?
주요 결과
- 모델이 잘못되었을 경우에도, 보호된 특성 A의 후손이 아닌 분위수 집합에서 추출된 부모 변수를 가진 예측기의 경우, 인구 통계적 평등을 보장한다.
- 분위수 보존을 가정하는 비검증 조건 하에서, 개인 수준의 반사적 공정성을 보장한다. 즉, 예측 분포가 보호된 특성에 대한 간섭에 대해 불변이다.
- 가정된 인과 모델이 잘못되었더라도, 인과 그래프의 구조에 따라 특정 집단 수준의 공정성 개념(예: 인구 통계적 평등, 분리성)을 여전히 만족한다.
- UCI Adult 데이터셋에 대한 실증 평가에서, 연령과 인종 기반의 표본 편향을 제거하기 위해 서브샘플링한 후, 적응된 데이터는 성능 손실 없이 더 공정한 예측을 도출한다.
- R 패키지 fairadapt를 통해 이 방법을 실용적으로 적용할 수 있으며, 다양한 공정성 기준에서 경쟁적인 성능과 공정성을 보여준다.
- 이 방법은 인과 그래프의 구조와 공정성 개념을 정렬함으로써 체계적인 공정성 선택을 가능하게 하며, 민감한 분야에서 공정성 기준에 대한 합의를 위한 프레임워크를 제공한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.