QUICK REVIEW

[論文レビュー] Investigating Human + Machine Complementarity for Recidivism Predictions

Sarah Tan, Julius Adebayo|arXiv (Cornell University)|Aug 28, 2018

Ethics and Social Impacts of AI参考文献 25被引用数 27

ひとこと要約

本稿は、人間の判断と機械学習予測（COMPAS）を組み合わせることで、再犯リスクの評価が改善されるかを調査している。Mechanical Turkの作業者を用いて被疑者のスコアを付与し、人間リスクスコア（HRS）を構築し、COMPASとの一致・不一致のパターンを分析し、ハイブリッドモデルをテストした。その結果、COMPAS単体よりも顕著な改善は得られず、このデータセットでは人間と機械の補完性が限定的であることが示唆された。

ABSTRACT

When might human input help (or not) when assessing risk in fairness domains? Dressel and Farid (2018) asked Mechanical Turk workers to evaluate a subset of defendants in the ProPublica COMPAS data for risk of recidivism, and concluded that COMPAS predictions were no more accurate or fair than predictions made by humans. We delve deeper into this claim to explore differences in human and algorithmic decision making. We construct a Human Risk Score based on the predictions made by multiple Turk workers, characterize the features that determine agreement and disagreement between COMPAS and Human Scores, and construct hybrid Human+Machine models to predict recidivism. Our key finding is that on this data set, Human and COMPAS decision making differed, but not in ways that could be leveraged to significantly improve ground-truth prediction. We present the results of our analyses and suggestions for data collection best practices to leverage complementary strengths of human and machines in the fairness domain.

研究の動機と目的

再犯予測における人間と機械の意思決定が、公平性や正確性の向上に補完的であるかどうかを評価すること。
人間とCOMPASの予測が一致または不一致する状況を特定し、その違いを引き起こす要因を同定すること。
人間と機械の予測を統合したハイブリッドモデルが、単独での人間または機械の予測を上回る性能を示すかどうかを評価すること。
公平性に配慮する分野におけるハイブリッド意思決定研究のための現在のデータ収集手法の欠陥を特定すること。

提案手法

ProPublicaのCOMPASデータセットに含まれる1,000名の被疑者について、Mechanical Turkの作業者複数名の予測を集約して人間リスクスコア（HRS）を構築した。
意思決定木およびクラスタリング分析を用いて、HRSとCOMPASの予測の一致・不一致に関連する特徴パターンを同定した。
真の再犯状況に基づき、8つの明確な一致／不一致のケースに分類し、両者とも正しく、両者とも誤り、または片方だけ正しく片方だけ誤りであるとラベル付けした。
真の再犯を予測するために、COMPASスコア、HRS、人間の自信度スコア（HWR）および特徴量を組み合わせたハイブリッドモデルを構築した。
複数のサブグループ（異なる人種グループを含む）において、標準指標（AUC、バランス精度、FPR、FNR、FDR、FOR）を用いてモデルを評価した。
特徴量のみ、COMPASのみ、人間のスコアのみを用いたベースラインモデルと比較し、ランダムおよびオラクルアンサンブルをベンチマークとしてテストした。

実験結果

リサーチクエスチョン

RQ1人間と機械による再犯予測の違いはどのようなものであり、これらは体系的であるか、ランダムであるか？
RQ2人間とCOMPASがリスク評価で一致または不一致する状況を予測できる特定の人口統計的要因や犯罪歴特徴は存在するか？
RQ3人間と機械の予測を統合したハイブリッドモデルは、単独での人間または機械の予測を上回る正確性と公平性を達成できるか？
RQ4人間と機械の誤りパターンを比較すると、重複しているか、あるいは補い合っているか？

主な発見

人間とCOMPASの予測が著しく不一致したのは36.1％の被疑者で、そのうち片方だけが正しかったのは16.2％と15.9％であった。
最も一般的な不一致パターンは年齢（23.5–48.5）と低リスク歴（Priors < 1.5 または < 0.5）に関連しており、人口統計的要因および犯罪歴特徴が予測の乖離を引き起こしている可能性を示唆している。
COMPASと人間のスコアを統合したハイブリッドモデルは、COMPAS単体よりも顕著な性能向上を示さず、AUCは0.65から0.73の範囲にとどまった。また、どのモデルもオラクル性能を上回ることはなかった。
人間の自信度（HWR）や人間の非リスクスコア（HNR）を使用しても、ハイブリッドモデルに一貫した改善は見られず、バランス精度は最高で0.65にとどまった。
特徴量のみで学習したモデルはAUCが0.65であったが、最良のハイブリッドモデルはAUCが0.73に達したものの、依然としてオラクルの0.84AUCには及ばず、大幅な改善余地があることが示された。
少数派のグループ（他の人種）では、ハイブリッドモデルがFPRとFNRが高くなる傾向にあり、統合システムにおける公平性のトレードオフが生じる可能性があることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。