QUICK REVIEW

[論文レビュー] Mathematical Notions vs. Human Perception of Fairness: A Descriptive Approach to Fairness for Machine Learning

Megha Srivastava, Hoda Heidari|arXiv (Cornell University)|Feb 13, 2019

Ethics and Social Impacts of AI被引用数 28

ひとこと要約

本研究では、機械学習における公平性の認識について、一般の人々の直感と最も整合する数学的公平性定義は何かを調査している。アマゾン・メカニカル・トルク上で実施した適応的アクティブラーニング実験の結果、犯罪的再犯リスクや医療予測という2つの高リスク分野において、最も単純な公平性概念である「特徴群別平等」が、より複雑な公平性定義について説明を受けた参加者に対しても、人間の直感と最も一致することが判明した。

ABSTRACT

Fairness for Machine Learning has received considerable attention, recently. Various mathematical formulations of fairness have been proposed, and it has been shown that it is impossible to satisfy all of them simultaneously. The literature so far has dealt with these impossibility results by quantifying the tradeoffs between different formulations of fairness. Our work takes a different perspective on this issue. Rather than requiring all notions of fairness to (partially) hold at the same time, we ask which one of them is the most appropriate given the societal domain in which the decision-making model is to be deployed. We take a descriptive approach and set out to identify the notion of fairness that best captures \\emph{lay people's perception of fairness}. We run adaptive experiments designed to pinpoint the most compatible notion of fairness with each participant's choices through a small number of tests. Perhaps surprisingly, we find that the most simplistic mathematical definition of fairness---namely, demographic parity---most closely matches people's idea of fairness in two distinct application scenarios. This conclusion remains intact even when we explicitly tell the participants about the alternative, more complicated definitions of fairness, and we reduce the cognitive burden of evaluating those notions for them. Our findings have important implications for the Fair ML literature and the discourse on formalizing algorithmic fairness.

研究の動機と目的

現実世界の意思決定文脈における一般の人々の公平性認識と最も一致する数学的公平性定義を特定すること。
人々の公平性判断が、複雑な公平性概念（例：オッズの平等、キャリブレーション）と単純な概念（例：特徴群別平等）のどちらにより一致するかを調査すること。
生命予想年数や犯罪的結果に影響を及ぼす意思決定といった高リスク状況下で、公平性認識がどのように変化するかを調査すること。
参加者に代替の公平性定義について明確に情報提供した場合、その好みにどのような影響が及ぶかを評価すること。
最小限の認知的負荷で個々の公平性好みを特定できる適応的実験フレームワークの開発と検証すること。

提案手法

参加者1人あたりのテスト回数を最小限（最大20回）に抑えつつ、情報量を最大化するため、アクティブラーニング（EC2アルゴリズム）を用いた適応的実験を実施した。
参加者に、10人の意思決定対象者について真のラベルと予測ラベルが明示された2つの仮想の機械学習モデルのペアを提示し、より差別の的でないモデルを選ばせた。
現実世界の複雑さから公平性認識を分離するために、スタイリズドで制御されたシナリオ設計を採用し、主に人種的・文化的背景ごとのラベル分布に焦点を当てた。
過去の回答に基づいて次回のテストを動的に選択する二腕のバンディット手法（EC2）を適用し、最も適合する公平性概念を効率的に同定した。
アマゾン・メカニカル・トルクから300名以上の参加者を収集し、承認率が高く、1人あたり1回のみの参加であることを条件にノイズを低減した。
参加者の選択を分析し、事前に定義された公平性定義（特徴群別平等、偽陽性・偽陰性率の平等、正答率の平等、キャリブレーション）との適合度を評価した。

実験結果

リサーチクエスチョン

RQ1犯罪的再犯リスク評価において、参加者の公平性認識と最も適合する数学的公平性概念はどれか？（特徴群別平等、偽陽性・偽陰性率の平等、正答率の平等、キャリブレーション）
RQ2医療予測シナリオにおいて、参加者の判断と最も一致する公平性概念はどれか？
RQ3生命予想年数に影響を及ぼすような高リスク状況下で、公平性の重要度はどのように変化するか？また、この状況では正確性が平等性を上回る傾向があるか？
RQ4参加者に代替の公平性定義について明示的に説明した場合、特徴群別平等への好みが低下するか？
RQ5適応的実験デザインは、認知的負担を最小限に抑えながら、個々の公平性好みを効率的に同定できるか？

主な発見

参加者により複雑な公平性定義について明示的に説明した状況下でも、特徴群別平等が、再犯リスク評価と医療予測の両シナリオにおいて、参加者の選択と最も適合する公平性概念であった。
高リスク状況下では、参加者がモデルの正確性をより重視し、結果の平等性を軽視する傾向が強く、公平性とパフォーマンス認識のトレードオフが顕著に現れた。
適応的実験デザインは、参加者1人あたり平均10回未満のテストで、最も適合する公平性概念を効率的に同定でき、高い効率性を示した。
参加者の選択はUIの変更に対して頑健であったため、結果がフレーミングやインターフェース設計の影響によるものではないことが示唆された。
特徴群別平等は単純であるが、人間の直感を捉える点で、より洗練された公平性定義を常に上回った。これは、複雑さが公平性適合性を高めるとは限らないという仮定に疑問を呈するものである。
参加者からのフィードバックでは、タスクが魅力的で、アルゴリズムの公平性についての考察を促したが、一部の参加者は意思決定対象者やモデルのメカニズムに関するより多くの文脈的情報を求めていた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。