QUICK REVIEW

[論文レビュー] On Adversarial Bias and the Robustness of Fair Machine Learning

Hongyan Chang, Ta Duy Nguyen|arXiv (Cornell University)|Jun 15, 2020

Adversarial Robustness in Machine Learning参考文献 37被引用数 37

ひとこと要約

この論文は、公平性制約（特に等化オッズ）を標的とするデータ中毒攻撃が精度と公平性の両方を劣化させうることを分析し、頑健性と公平性のトレードオフを利用する攻撃アルゴリズムを提案する。

ABSTRACT

Optimizing prediction accuracy can come at the expense of fairness. Towards minimizing discrimination against a group, fair machine learning algorithms strive to equalize the behavior of a model across different groups, by imposing a fairness constraint on models. However, we show that giving the same importance to groups of different sizes and distributions, to counteract the effect of bias in training data, can be in conflict with robustness. We analyze data poisoning attacks against group-based fair machine learning, with the focus on equalized odds. An adversary who can control sampling or labeling for a fraction of training data, can reduce the test accuracy significantly beyond what he can achieve on unconstrained models. Adversarial sampling and adversarial labeling attacks can also worsen the model's fairness gap on test data, even though the model satisfies the fairness constraint on training data. We analyze the robustness of fair machine learning through an empirical evaluation of attacks on multiple algorithms and benchmark datasets.

研究の動機と目的

データ汚染下のMLにおける公平性と頑健性の緊張を動機づけ、定量化する。
攻撃者が訓練データを操作することにより、精度と公平性の両方を低下させる方法を分析する。
公正なモデルに対する攻撃戦略を開発し、ベンチマークデータセットでその影響を実証的に評価する。

提案手法

公平性制約（等化オッズ）を満たしつつ訓練損失を最大化するビレベル最適化を定式化する。
内側の最適化を損失代替に置換する近似と、公平性制約に対するラグランジュペナルティを用いることで扱いやすさを確保する。
オンライン勾配法に基づく poisoning アルゴリズム（アルゴリズム1および2）を提案し、損失と公平性ギャップの加重和を最大化するポイニング点を選択する。
データポイントレベルの poisoning 決定を可能にするため、公平性ギャップを加法的代替手段で近似する。
COMPASとAdultデータセットで、ポストプロセッシングとリダクション手法を用いた公正ロジスティック回帰モデルに対して攻撃を評価する。
近似の下で攻撃性能と最適な poisoning 解との理論的保証を提供する。

実験結果

リサーチクエスチョン

RQ1等化オッズの公平性を強制することは、無制約モデルと比較してデータ中毒に対する頑健性を制約するか？
RQ2攻撃者による訓練データのサンプリングとラベリングの悪用は、テスト精度と公平性の一般化にどのような影響を与えるか？
RQ3攻撃者の戦略は公平性制約を利用して、少数派/過小表現グループを不均衡に害することができるか？
RQ4公平性のレベル（δ）が敵対的バイアス下の頑健性に与える影響は？

主な発見

Attacks	Unconstrained Model	Fair [1] (δ = 0.1)	Fair [1] (δ = 0.01)	Fair [19] (δ = 0)
Benign	0.21±0.07	0.11±0.06	0.06±0.04	0.07±0.04
Random sampling	0.19±0.07	0.08±0.03	0.11±0.05	0.13±0.07
Hard examples	0.19±0.08	0.09±0.03	0.13±0.05	0.15±0.07
Label flipping	0.23±0.07	0.09±0.04	0.07±0.04	0.10±0.06
Adv. sampling (Alg. 2, λ = 0) [37]	0.26±0.08	0.19±0.07	0.30±0.07	0.27±0.08
Adv. sampling (Alg. 2, λ = 100ε)	-	0.29±0.06	0.37±0.09	0.53±0.05
Adv. sampling (Alg. 1, λ = ε)	-	0.12±0.07	0.21±0.10	0.25±0.13
Adv. labeling (Alg. 2, λ = 0) [37]	0.28±0.08	0.13±0.05	0.19±0.08	0.25±0.08
Adv. labeling (Alg. 2, λ = 100ε)	-	0.28±0.05	0.39±0.08	0.55±0.04
Adv. labeling (Alg. 1, λ = ε)	-	0.11±0.06	0.12±0.04	0.13±0.09

公平性制約は、無制約モデルと比較してデータ中毒に対する頑健性を大幅に低下させる可能性がある。
攻撃下では、公正なモデルはテスト精度の大幅な低下を被り、時には定数予測器の性能に近づくことがある。
より強い公平性（より小さな δ）は、ポイニングに対して脆弱性を高め、攻撃下での精度ギャップを広げる。
攻撃は、最も頻度の低いラベルを持つ最小のサブグループに poisoned データを配置する傾向があり、公平性重み付けを悪用する。
敵対的バイアスは、訓練データの公平性が満たされていても、テストデータ上の公平性ギャップを悪化させ得る。
サンプリング（およびラベリング）を標的とする中毒は、公平性を無制約モデルよりも悪化させ、一般化を阻害する可能性がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。