[논문 리뷰] Fairness and Missing Values
이 논문은 기계학습에서의 누락 데이터와 공정성의 깊은 연관성을 주장하며, 공정성 영향을 고려하지 않고 누락된 값을 삭제하거나 보간하는 일반적인 관행을 도전한다. 누락된 값이 있는 행은 일반적으로 완전한 행보다 더 공정한 경향이 있으며, 특히 랜덤 포레스트를 사용할 경우 보간(보정)이 삭제보다 더 나은 공정성-성능 트레이드오프를 제공할 수 있음을 시현한다.
The causes underlying unfair decision making are complex, being internalised in different ways by decision makers, other actors dealing with data and models, and ultimately by the individuals being affected by these decisions. One frequent manifestation of all these latent causes arises in the form of missing values: protected groups are more reluctant to give information that could be used against them, delicate information for some groups can be erased by human operators, or data acquisition may simply be less complete and systematic for minority groups. As a result, missing values and bias in data are two phenomena that are tightly coupled. However, most recent techniques, libraries and experimental results dealing with fairness in machine learning have simply ignored missing data. In this paper, we claim that fairness research should not miss the opportunity to deal properly with missing data. To support this claim, (1) we analyse the sources of missing data and bias, and we map the common causes, (2) we find that rows containing missing values are usually fairer than the rest, which should not be treated as the uncomfortable ugly data that different techniques and libraries get rid of at the first occasion, and (3) we study the trade-off between performance and fairness when the rows with missing values are used (either because the technique deals with them directly or by imputation methods). We end the paper with a series of recommended procedures about what to do with missing data when aiming for fair decision making.
연구 동기 및 목표
- 누락 데이터와 알고리즘 공정성 간의 관계를 조사하기 위해.
- 공정성 고려 없이 누락된 값을 삭제하거나 보간하는 관행을 도전하기 위해.
- 누락된 값이 있는 행이 완전한 행보다 더 공정한지, 아니면 덜 공정한지 평가하기 위해.
- 보간과 삭제를 사용할 경우 공정성-성능 트레이드오프를 분석하기 위해.
- 공정성 인식 기반 기계학습에서 누락된 데이터를 다루기 위한 실용적 권고를 제공하기 위해.
제안 방법
- 공정성 문제와 누락된 값이 있는 실제 3개의 데이터셋(Adult, Recidivism, Titanic)을 분석한다.
- 누락된 데이터의 원인을 편향의 근본 원인(예: 개인정보 우려, 체계적 미대표성 등)과 연결한다.
- 공정성 비교를 위해 주로 통계적 평등 차이(Statistical Parity Difference, SPD)를 공정성 지표로 사용한다.
- 삭제된 데이터셋과 보간된 데이터셋을 모두 사용하여 여러 모델(DT, LR, NN, RF, SV)을 적용해 공정성과 성능 간의 트레이드오프를 평가한다.
- 정확도와 공정성 간의 트레이드오프를 시각화하기 위해 다양한 보간 및 삭제 전략에 대해 파레토 프론트를 구축한다.
- 실험 결과를 맥락화하기 위해 공정성-성능 공간에 대한 이론적 경계 삼각형(이론적 경계 옥타곤)을 유도한다.
실험 결과
연구 질문
- RQ1누락된 값과 공정성은 인과관계가 있으며, 만약 그렇다면 그 관계는 어떠한가?
- RQ2누락된 값이 있는 행은 완전한 행보다 더 공정한가, 아니면 덜 공정한가?
- RQ3누락된 값이 있는 행을 삭제하면 편향이 악화되는가? 보간은 편향을 완화시키는가, 아니면 악화시키는가?
- RQ4다양한 보간 방법은 예측 모델의 공정성-성능 트레이드오프에 어떻게 영향을 미치는가?
- RQ5공정성에 민감한 기계학습 응용 분야에서 누락된 데이터를 다루기 위한 권장 실천 방법은 무엇인가?
주요 결과
- Adult, Recidivism, Titanic 데이터셋에서 누락된 값이 있는 행은 통상적으로 완전한 행보다 더 공정한 경향이 있으며, 특히 통계적 평등 차이(Statistical Parity Difference, SPD) 측면에서 그러하다.
- 누락된 값이 있는 행을 삭제하면 공정성이 체계적으로 악화되며, 특히 보호 대상 속성과 관련된 비결정적 누락(Non-ignorable missingness)이 있는 데이터셋에서 그러하다.
- 보간은 삭제 대비 공정성을 유지하거나 향상시키며, 특히 랜덤 포레스트가 정확도와 공정성 간의 가장 유리한 트레이드오프를 보여준다.
- Adult 데이터셋의 경우, 모든 보간 방법이 완벽한 모델 대비 편향을 감소시켰으며, 이는 보간이 불공정성을 완화하는 데 도움이 될 수 있음을 시사한다.
- 보간된 데이터에서 구축한 파레토 프론트는 삭제된 데이터에서의 프론트를 항상 우월하며, 이는 보간이 더 넓은 범위의 실현 가능한 공정성-성능 조합을 제공함을 보여준다.
- 랜덤 포레스트는 삭제에서 완벽한 모델에 이르는 공정성-성능 공간에서 거의 선형적인 경로를 보이며, 이는 보간을 사용할 경우 강건성과 안정성을 보임을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.