[논문 리뷰] 50 Years of Test (Un)fairness: Lessons for Machine Learning
본 논문은 교육 및 고용 평가에서의 다섯 십년 간의 공정성 연구를 검토하고, 전통적 공정성 기준을 현대 ML 개념에 매핑하며, 과거의 통찰을 활용해 ML 공정성 정의와 실천을 안내해야 한다고 주장한다.
Quantitative definitions of what is unfair and what is fair have been introduced in multiple disciplines for well over 50 years, including in education, hiring, and machine learning. We trace how the notion of fairness has been defined within the testing communities of education and hiring over the past half century, exploring the cultural and social context in which different fairness definitions have emerged. In some cases, earlier definitions of fairness are similar or identical to definitions of fairness in current machine learning research, and foreshadow current formal work. In other cases, insights into what fairness means and how to measure it have largely gone overlooked. We compare past and current notions of fairness along several dimensions, including the fairness criteria, the focus of the criteria (e.g., a test, a model, or its use), the relationship of fairness to individuals, groups, and subgroups, and the mathematical method for measuring fairness (e.g., classification, regression). This work points the way towards future research and measurement of (un)fairness that builds from our modern understanding of fairness while incorporating insights from the past.
연구 동기 및 목표
- 1960년대에서 1980년대에 이르는 시험에서의 공정성 정의의 진화와 그 사회적 맥락을 추적한다.
- 역사적 공정성 기준과 현대 ML 공정성 개념 간의 대응 관계를 확인한다.
- 공정성 기준이 시험 자체에 적용되는지 아니면 사용에 적용되는지에 대한 교훈과 ML에 대한 시사점을 강조한다.
- 공정성의 인과 및 활용도 고려사항과 이것이 ML 실천에 주는 시사점을 논의한다.
제안 방법
- Cleary(1966)에서 Peterson & Novick(1976) 및 그 이후까지의 교육 및 고용 평가의 공정성 정의에 대한 역사적 문헌 고찰.
- 시험 공정성 기준을 현대 ML의 독립성 개념(충분성, 분리, 독립성) 및 인과/활용도 해석에 매핑한다.
- 회귀, 상관관계 및 DIF 분석이 현재의 ML 공정성 방법과 어떻게 관련되는지 논의한다.
- 테스트와 ML 맥락에서 모델 중심 vs 사용 맥락의 공정성 관점을 비교한다.
실험 결과
연구 질문
- RQ1교육 및 고용 시험에서 역사적으로 제안되었던 공정성 기준은 무엇이며, 이것이 현대 ML 공정성 정의와 어떻게 관련되는가?
- RQ2시험 중심의 공정성과 사용 중심의 공정성 개념은 어떻게 다른가, 그리고 ML 실천에 어떤 교훈을 제공하는가?
- RQ3역사적 기준이 ML 개념인 equalized odds, predictive parity, 그리고 demographic parity에 어떤 방식으로 매핑되는가?
- RQ4회귀와 상관관계를 공정성 기준으로 ML 모델에 사용하는 것의 함의는 무엇인가?
주요 결과
- 다수의 역사적 공정성 기준은 sufficiency, equalized odds, predictive parity, 및 demographic parity와 같은 현대 ML 정의와 일치한다.
- 개인적 공정성과 집단 공정성 간의 근본적 긴장이 존재하며, 이는 ML의 불가능성 결과와 유사하다.
- 공정성 기준은 종종 공정성이 시험 자체의 특성인지 아니면 사용의 특성인지에 달려 있으며, 이는 ML에서의 모델 대 사용 논의와 맥을 같이 한다.
- Differential Item Functioning (DIF) 및 시험 사용의 제도 변화가 이후 ML 편향 완화 접근법에 영향을 미쳤다.
- 인과 및 활용도 기반의 관점은 초기 고려였으며, ML의 공정성 비용 분석의 현대적 흐름을 예고했다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.