QUICK REVIEW

[論文レビュー] Censoring Representations with an Adversary

Harrison Edwards, Amos Storkey|arXiv (Cornell University)|Nov 18, 2015

Adversarial Robustness in Machine Learning参考文献 16被引用数 104

ひとこと要約

本稿では、主なタスクに対して判別可能でありながら、感受性のある変数について最小限の情報を含む表現を学ぶための敵対的フレームワーク、Adversarial Learned Fair Representations (ALFR) を提案する。ミニマックスゲームにおいて敵対的ネットワークが表現を騙すように訓練することで、ベンチマークデータセット上で最先端の公平性性能を達成し、対応する入出力ペアが存在しない新しい非教師付き画像匿名化を可能にする。

ABSTRACT

In practice, there are often explicit constraints on what representations or decisions are acceptable in an application of machine learning. For example it may be a legal requirement that a decision must not favour a particular group. Alternatively it can be that that representation of data must not have identifying information. We address these two related issues by learning flexible representations that minimize the capability of an adversarial critic. This adversary is trying to predict the relevant sensitive variable from the representation, and so minimizing the performance of the adversary ensures there is little or no information in the representation about the sensitive variable. We demonstrate this adversarial approach on two problems: making decisions free from discrimination and removing private information from images. We formulate the adversarial model as a minimax problem, and optimize that minimax objective using a stochastic gradient alternate min-max optimizer. We demonstrate the ability to provide discriminant free representations for standard test problems, and compare with previous state of the art methods for fairness, showing statistically significant improvement across most cases. The flexibility of this method is shown via a novel problem: removing annotations from images, from unaligned training examples of annotated and unannotated images, and with no a priori knowledge of the form of annotation provided to the model.

研究の動機と目的

性別や人種などの感受性のある属性に依存しない予測がなされるように、機械学習における公平性を確保すること。
テキストなどの個人情報が含まれるデータから感受性のある情報を取り除くことで、プライバシー保護型の表現学習を可能にすること。
アノテーション付きと非アノテーション付きの画像のような、対応する訓練データを必要としない柔軟でエンドツーエンドの手法を開発すること。
公平性と有用性の両方を同時に最適化するミニマックス目的関数を用いることで、既存の公平性手法を改善すること。
同じコアアーキテクチャと訓練手順を用いて、公平性と画像匿名化の両タスクに適用可能な手法の汎用性を実証すること。

提案手法

感受性のある変数の予測能力を最小化するように、表現ネットワークを敵対的ネットワークが騙すミニマックス最適化問題として定式化する。
深層ニューラルネットワークを用いて表現を学び、別個の深層ニューラルネットワークを敵対的ネットワークとして、感受性のある変数を予測する。
確率的勾配を用いた交互最小化最適化手法を用い、表現ネットワークと敵対的ネットワークの更新を交互に実行する。
自動符号化器を訓練して、個人情報（例：テキスト）を含まない画像を再構築するようにし、敵対的ネットワークがその情報の存在を検出しようとするようにすることで、画像匿名化に同じフレームワークを適用する。
パッチベースのエキスパートモデルを用い、パッチ分類器が自動符号化器の出力を使うか、パッチを直接コピーするかを判断する。
再構築損失と敵対的損失のバランスを調整するためのハイパーパrameterとして、α=1 と β=10 を用い、検証データ上で調整した。

実験結果

リサーチクエスチョン

RQ1感受性のある変数に対して明示的な制約を課さずに、敵対的訓練フレームワークが、公平かつ判別可能な表現を効果的に学習できるか？
RQ2標準的な公平性ベンチマークにおいて、ALFR 法は先行する最先端の公平性手法よりも優れた性能を示すか？
RQ3アノテーション付きと非アノテーション付きの画像のような、対応する入出力ペアが存在しない状況でも、同じ敵対的フレームワークを画像匿名化に適用できるか？
RQ4アノテーション付きと非アノテーション付きの画像のペアが存在しない状況でも、モデルが画像から個人情報（例：テキスト）をどれだけ効果的に除去できるか？
RQ5画像再構築においてペアドサブスクリプションが存在しない状況でも、敵対的訓練プロセスはどれほど安定的かつ効果的か？

主な発見

ALFR 法は、Diabetes および Adult データセットにおいて、先行する最先端の公平性手法よりも統計的に有意な改善を達成した。
敵対的ネットワークの予測精度が低いことから、モデルが感受性のある変数とはほぼ独立した表現を学習していることが示された。
画像匿名化のタスクにおいて、アノテーション付きと非アノテーション付きの画像のペアが存在しない状況でも、テキストを含まない自然な再構築画像を生成できた。
視覚的結果から、訓練後には敵対的ネットワークがアノテーション付きと非アノテーション付きの画像を確実に区別できなくなっていることが確認され、感受性のある手がかりが効果的に除去されたことが示された。
同じコアアーキテクチャと訓練手順を用いて、公平性と画像匿名化の両タスクを処理できる柔軟性を示した。
一部の目立つアーティファクトが存在するものの、再構築画像は視覚的に妥当であり、実世界のプライバシー保護応用への可能性を示唆している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。