QUICK REVIEW

[論文レビュー] FAIR: Fair Adversarial Instance Re-weighting

Andrija Petrović, Mladen Nikolić|arXiv (Cornell University)|Nov 15, 2020

Adversarial Robustness in Machine Learning被引用数 5

ひとこと要約

FAIRは、敵対的訓練とインスタンス再重み付けを統合する新しい深層学習フレームワークを提案する。敵対的プロセスを通じてインスタンス固有の重みを学習することで、最先端の手法よりも精度と公平性のトレードオフを改善し、個々のインスタンスに対する解釈可能な公平性の洞察を提供する。

ABSTRACT

With growing awareness of societal impact of artificial intelligence, fairness has become an important aspect of machine learning algorithms. The issue is that human biases towards certain groups of population, defined by sensitive features like race and gender, are introduced to the training data through data collection and labeling. Two important directions of fairness ensuring research have focused on (i) instance weighting in order to decrease the impact of more biased instances and (ii) adversarial training in order to construct data representations informative of the target variable, but uninformative of the sensitive attributes. In this paper we propose a Fair Adversarial Instance Re-weighting (FAIR) method, which uses adversarial training to learn instance weighting function that ensures fair predictions. Merging the two paradigms, it inherits desirable properties from both -- interpretability of reweighting and end-to-end trainability of adversarial training. We propose four different variants of the method and, among other things, demonstrate how the method can be cast in a fully probabilistic framework. Additionally, theoretical analysis of FAIR models' properties have been studied extensively. We compare FAIR models to 7 other related and state-of-the-art models and demonstrate that FAIR is able to achieve a better trade-off between accuracy and unfairness. To the best of our knowledge, this is the first model that merges reweighting and adversarial approaches by means of a weighting function that can provide interpretable information about fairness of individual instances.

研究の動機と目的

レースや性別などの感受性属性からのバイアスを軽減することで、機械学習における公平性を向上させること。
事前処理による再重み付け（タスクに適合しない）および敵対的表現学習（解釈不能性）の限界を克服すること。
インスタンス再重み付けの解釈可能性と敵対的訓練のエンドツーエンド学習可能性を統合した統一フレームワークを開発すること。
個々のインスタンスの公平性寄与度を反映するインスタンス固有の公平性重みを学習することで、モデルレベルの解釈可能性を実現すること。
多様な実世界のデータセットにおいて、公平性と精度の指標で優れた性能を示すこと。

提案手法

重み付けネットワーク、感受性属性予測子、ターゲットラベル予測子の3ネットワークアーキテクチャを提案する。
特徴表現がターゲットラベルを予測可能であるが、感受性属性についての情報を含まないよう、敵対的訓練を用いる。
4つのバリエーションを導入：FAIR-scalar（確率的でない重み）、FAIR-Bernoulli、FAIR-betaSF、FAIR-betaREP（ベルヌーイおよびベータ分布を用いた確率的重み）。
確率的バージョンの勾配推定を可能にするために、スコア関数および再パラメータ化技術を採用する。
スコア関数に基づくモデルの勾配推定における分散低減のため、ベースライン関数を組み込む。
完全確率的フレームワークにすることで、原則的な不確実性モデリングと期待値推定を可能にする。

実験結果

リサーチクエスチョン

RQ1敵対的訓練を用いて、予測性能を損なわずに公平性を向上させるインスタンス再重み付け関数を効果的に学習できるか？
RQ2FAIRフレームワークにおいて、ハイパーパrameter α は、公平性とモデル精度のトレードオフをどのように制御するか？
RQ3学習されたインスタンス重みは、個々の予測の公平性に関する解釈可能なインサイトをどの程度提供できるか？
RQ4ベルヌーイ分布およびベータ分布を用いた確率的定式化は、再重み付けメカニズムのロバストネスと訓練安定性をどのように向上させるか？
RQ5FAIRは、多様なデータセットにおいて、既存の最先端の公平性手法を、公平性指標および分類精度の両面で上回ることができるか？

主な発見

FAIRは、ドイツ信用および再入院など4つの実世界データセットにおいて、比較対象の8つのモデルの中で、公平性と精度の最良のトレードオフを達成した。
FAIR-scalarバージョンは、安定した雇用、外国労働者でない、他の債務者なしといったバランスの取れた属性を持つ「公平な」インスタンスを、性別に関係なく正しく特定した。
ハイパーパrameter α が低下するにつれて、モデルはバイアスの可能性はあるが予測に有用なインスタンスを次第に除外し、感受性属性のAUCは低下するが、ターゲットAUCは維持された。
理論的分析により、α が公平性-精度トレードオフを制御することが確認され、高い α 値は公平性を重視し、低い値は予測性能を重視することが示された。
実験結果により、FAIR-scalarは、性別などの感受性属性が最終予測に影響しない場合に、正しく「公平」とラベル付けすることを示し、解釈可能性を裏付けた。
FAIR-BernoulliおよびFAIR-betaSFにおけるベースライン関数の使用は、勾配の分散を顕著に低減し、訓練の安定性と収束性を向上させた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。