QUICK REVIEW

[논문 리뷰] Investigating Human + Machine Complementarity for Recidivism Predictions

Sarah Tan, Julius Adebayo|arXiv (Cornell University)|2018. 08. 28.

Ethics and Social Impacts of AI참고 문헌 25인용 수 27

한 줄 요약

이 논문은 인간 평가와 기계 예측(COMPAS)을 융합하는 것이 재범 위험 평가에 개선을 가져오는지 조사한다. Mechanical Turk 작업자들이 피의자를 평가하여 인간 위험 점수(HRS)를 구성하고, COMPAS와의 일치/불일치 패턴을 분석하며 하이브리드 모델을 테스트한다. 그 결과, COMPAS 단독 모델에 비해 유의미한 향상이 없었으며, 이 데이터셋에서는 인간과 기계 간의 상호보완성이 제한적임을 시사한다.

ABSTRACT

When might human input help (or not) when assessing risk in fairness domains? Dressel and Farid (2018) asked Mechanical Turk workers to evaluate a subset of defendants in the ProPublica COMPAS data for risk of recidivism, and concluded that COMPAS predictions were no more accurate or fair than predictions made by humans. We delve deeper into this claim to explore differences in human and algorithmic decision making. We construct a Human Risk Score based on the predictions made by multiple Turk workers, characterize the features that determine agreement and disagreement between COMPAS and Human Scores, and construct hybrid Human+Machine models to predict recidivism. Our key finding is that on this data set, Human and COMPAS decision making differed, but not in ways that could be leveraged to significantly improve ground-truth prediction. We present the results of our analyses and suggestions for data collection best practices to leverage complementary strengths of human and machines in the fairness domain.

연구 동기 및 목표

재범 예측에서 인간과 기계의 결정이 상호보완적인지, 특히 공정성과 정확도 향상에 기여하는지 평가하는 것.
인간과 COMPAS 예측이 일치하거나 불일치하는 조건을 규명하고, 이러한 차이를 이끄는 특징을 특정하는 것.
인간과 기계 예측을 융합한 하이브리드 모델이 재범 예측에서 단독으로 사용된 인간 또는 기계 예측보다 성능이 뛰어나지 않는지 평가하는 것.
공정성 민감 영역에서 하이브리드 결정보다의 연구를 위한 현재의 데이터 수집 방식의 한계를 규명하는 것.

제안 방법

ProPublica의 COMPAS 데이터셋에서 1,000명의 피의자에 대해 Mechanical Turk 작업자들의 예측을 집계하여 인간 위험 점수(HRS)를 구성하였다.
결정 트리 및 클러스터링 분석을 통해 HRS와 COMPAS 예측 간 일치 및 불일치와 관련된 특징 패턴을 식별하였다.
기본 사실을 기반으로 HRS와 COMPAS 간의 8가지 서로 다른 일치/불일치 유형을 분류하였으며, 이는 둘 다 정확하거나 둘 다 오류이거나, 한쪽만 정확한 경우로 나누어 레이블링 하였다.
기본 사실 재범 예측을 예측하기 위해 COMPAS 점수, HRS, 인간 신뢰도 평가(HWR) 및 특징을 융합한 하이브리드 모델을 구축하였다.
다양한 하위군(다른 인종 포함)에서 AUC, 균형 정확도, FPR, FNR, FDR, FOR와 같은 표준 지표를 사용해 모델을 평가하였다.
기본 모델(특징만 사용), COMPAS 단독 모델, 인간 점수 단독 모델과 비교하여 하이브리드 모델의 성능을 평가하였으며, 랜덤 및 올리고 모델을 기준선으로 사용하였다.

실험 결과

연구 질문

RQ1인간과 기계의 재범 예측에서의 차이점은 무엇이며, 이러한 차이점은 체계적인가 아니면 무작위적인가?
RQ2특정 인구통계학적 또는 범죄 기록 특징이 인간과 COMPAS가 위험 평가에서 일치하거나 불일치할 때를 예측할 수 있는가?
RQ3인간과 기계 예측을 융합한 하이브리드 모델이 인간 또는 기계 단독 예측보다 정확도와 공정성을 향상시킬 수 있는가?
RQ4인간과 기계 예측의 오류 패턴을 비교했을 때, 이들은 겹치는가 아니면 상호보완적인가?

주요 결과

인간과 COMPAS 예측 간의 중대한 불일치는 피의자의 36.1%에서 발생했으며, 이 중에서 단 하나의 시스템만 정확한 경우는 각각 16.2%와 15.9%였다.
가장 흔한 불일치 패턴은 연령(23.5–48.5세)과 낮은 이전 기록(Priors < 1.5 또는 < 0.5)과 관련이 있었으며, 이는 인구통계학적 및 범죄 기록 특징이 분리 원인을 이끌고 있음을 시사한다.
COMPAS와 인간 점수를 융합한 하이브리드 모델은 COMPAS 단독 모델에 비해 성능 향상이 유의미하지 않았으며, AUC 값은 0.65에서 0.73 사이였고, 올리고 성능을 초월한 모델은 없었다.
인간의 자신감(HWR) 또는 인간의 비위험 점수(HNR)를 사용한 경우에도 하이브리드 모델은 일관된 향상이 없었으며, 균형 정확도는 최대 0.65에 머물렀다.
특징만 사용한 모델은 AUC 0.65를 기록했고, 최고의 하이브리드 모델은 AUC 0.73를 기록했지만, 이는 여전히 올리고의 0.84 AUC에 못 미쳤으며, 향상 여지가 크다는 것을 시사한다.
소수 인종을 포함한 미대표 하위군에서는 하이브리드 모델이 더 높은 FPR과 FNR을 보였으며, 이는 통합 시스템에서 공정성의 상충 가능성을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.