[논문 리뷰] fairadapt: Causal Reasoning for Fair Data Pre-processing
fairadapt는 R 패키지로, 인과적 추론 기반의 사전 처리 방법을 구현하여 공정한 머신러닝을 구현한다. 반사적 추론을 사용해 개인의 데이터 포인트를 민감한 속성(예: 성별, 인종)이 다를 것처럼 조정한다. 구조적 인과 모델 내에서 순환적 히스토그램 매칭을 적용함으로써, 모델 재학습이 필요 없이도 결과의 인구 통계적 편향을 줄일 수 있다. 이는 해결 변수와 반-마르코프 모델을 지원함으로써 가능하다.
Machine learning algorithms are useful for various predictions tasks, but they can also learn how to discriminate, based on gender, race or other sensitive attributes. This realization gave rise to the field of fair machine learning, which aims to measure and mitigate such algorithmic bias. This manuscript describes the R-package fairadapt, which implements a causal inference pre-processing method. By making use of a causal graphical model and the observed data, the method can be used to address hypothetical questions of the form "What would my salary have been, had I been of a different gender/race?". Such individual level counterfactual reasoning can help eliminate discrimination and help justify fair decisions. We also discuss appropriate relaxations which assume certain causal pathways from the sensitive attribute to the outcome are not discriminatory.
연구 동기 및 목표
- 민감한 속성에 대한 개인 수준의 반사적 추론을 가능하게 하여 머신러닝에서의 알고리즘 편향을 해결하기 위해.
- 모델 재학습이 필요 없이 불공정한 결과를 완화하기 위해 인과적 추론 기반의 사전 처리 방법을 제공하기 위해.
- 해결 변수와 반-마르코프 모델을 지원함으로써 더 현실적인 공정성 가정을 가능하게 하기 위해.
- 이론적으로 구조적 인과 모델에 기반한 이론적 기초를 지닌 실용적이고 오픈소스의 R 패키지(fairadapt on CRAN)를 제공하기 위해.
제안 방법
- 개별 개인의 민감한 속성(예: 성별)이 가상으로 변경된 반사적 세계를 정의하기 위해 구조적 인과 모델(SCM)을 사용한다.
- 순환적 히스토그램 매칭을 적용: 각 개인에 대해 인과 사슬 내의 각 변수에 대해 그 관측값을 목표 집단(예: 여성)의 분포에서 해당하는 히스토그램에 매핑한다.
- 잠재적 결과 기호를 사용하여 반사적 값 Y(fp)를 계산한다. 이는 P(Y ≥ y | E=e, T=t, A=a') = P(Y ≥ y(fp) | E=e(fp), T=t(fp), A=a)를 만족시킨다.
- 해결 변수를 지원함으로써, 관측된 데이터에 의해 정당화되는 경우에만 일부 차별을 允許함으로써 전체 민감도 평등성 가정을 완화한다.
- 이중 방향 화살표를 사용해 잠재 변수의 혼란을 포함함으로써 반-마르코프 모델로 확장하며, 정확한 히스토그램 추정을 위해 확장된 부모 집합(Pa(Vi))를 사용한다.
- Tian와 Pearl(2002)의 기반으로 식별 가능성 검사를 구현하여, 민감한 속성 또는 해결 변수를 포함한 차단되지 않은 후방 경로가 존재할 경우 간섭이 계산 불가능할 경우 이를 거부한다.
실험 결과
연구 질문
- RQ1성별이나 인종과 같은 민감한 속성으로부터 편향을 제거하기 위해 반사적 추론을 사용하여 개인 수준의 데이터 포인트를 공정하게 조정할 수 있는가?
- RQ2모델 재학습 없이 오직 사전 처리만을 통해 어떻게 공정한 데이터 적응을 달성할 수 있는가?
- RQ3해결 변수는 어떤 정도까지 더 세밀한 공정성 정의를 가능하게 하여 일부 비차별적 차이를 허용하는가?
- RQ4잠재적 혼란이 존재하는 인과 모델에서 반사적 간섭이 언제 식별 가능한가?
- RQ5복잡하고 상호의존적인 인과적 구조를 가진 실제 데이터에 적용했을 때 이 방법은 어떻게 성능을 보이는가?
주요 결과
- 해결 변수(시험 점수)를 사용할 경우, 예측 결과의 전체 차이가 남성 집단과 여성 집단 간에서 -0.6757에서 -0.4101로 감소하여 편향 감소가 명백하게 측정되었다.
- 이 방법은 변환된 값을 계산함으로써 개인 수준의 반사적 추론을 가능하게 하며, 예를 들어 남성의 교육 성취도를 여성 집단의 해당 백분위수에 맞게 매핑함으로써 목표 집단 내 상대적 순위를 유지한다.
- 이 구현은 마르코프 모델과 반-마르코프 모델을 모두 지원하며, 후자는 시험 점수와 최종 결과 사이의 잠재적 혼란을 허용한다.
- 패키지는 식별 불가능한 간섭을 감지하고 차단하며, 민감한 속성 또는 해결 변수를 포함한 후방 경로가 차단되지 않았을 경우 오류를 반환한다.
- 복잡한 모델에서 명시적 부모 집합 지정 대신, 변수의 위상 순서를 확장함으로써 확장 가능한 방법을 제공한다.
- fairadapt는 CRAN에 등재된 인과적 추론 기반의 사전 처리 방법을 구현한 첫 번째 패키지로, 공정한 머신러닝을 위한 가용 도구의 격차를 메운다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.