QUICK REVIEW

[論文レビュー] Overlearning Reveals Sensitive Attributes

Congzheng Song, Vitaly Shmatikov|arXiv (Cornell University)|May 28, 2019

Adversarial Robustness in Machine Learning参考文献 29被引用数 55

ひとこと要約

この論文は、単純な目的で訓練されたモデルが暗黙のうちに機微属性（例えば人種やアイデンティティ）を学習し、プライバシー漏洩やモデルの再用途化を可能にすること、そして検閲がこの過学習を防ぐには不十分であることを示しています。

ABSTRACT

"Overlearning" means that a model trained for a seemingly simple objective implicitly learns to recognize attributes and concepts that are (1) not part of the learning objective, and (2) sensitive from a privacy or bias perspective. For example, a binary gender classifier of facial images also learns to recognize races\textemdash even races that are not represented in the training data\textemdash and identities. We demonstrate overlearning in several vision and NLP models and analyze its harmful consequences. First, inference-time representations of an overlearned model reveal sensitive attributes of the input, breaking privacy protections such as model partitioning. Second, an overlearned model can be "re-purposed" for a different, privacy-violating task even in the absence of the original training data. We show that overlearning is intrinsic for some tasks and cannot be prevented by censoring unwanted attributes. Finally, we investigate where, when, and why overlearning happens during model training.

研究の動機と目的

監督付き深層モデルが訓練目的で指定されていない機微属性を学習することを実証する。
推定時表現を通じたプライバシー漏洩を定量化する。
過学習した表現がプライバシーを侵害するタスクのためにモデルを再利用できることを示す。
検閲および非検閲技術の有効性を調査する。
訓練中に過学習が起こる場所と原因を探る。

提案手法

表現 z = E(x) を層 l で持つ監督付き M = C ◦ E をモデル化する。
観測された表現上で攻撃モデルを訓練し、機微属性を予測することで推定時漏洩を評価する。
機微属性を抑制するために対立的学習や情報理論的手法による検閲を適用する。
検閲表現から情報を抽出するデ検閲手法を提案する。
転移した特徴抽出器を small Dtransfer に対してファインチューニングし、機微属性を予測させることでモデルの再用途化を実証する。
転移学習と内部層検閲を用いて検閲の頑健性を研究する。
過学習の起点を理解するために層ごとの表現類似度（CKA）を分析する。

実験結果

リサーチクエスチョン

RQ1訓練済みモデルは推定時に内部表現を介して機微属性を露呈するか。
RQ2検閲された表現は機微属性の漏洩を防ぐのに有効か。
RQ3過学習された表現は、訓練データがほとんどない、または全くない機微属性を予測するために再利用できるか。
RQ4ネットワークのどの層で過学習が発生し、なぜ訓練中に出現するのか。

主な発見

Dataset	RAND_y	BASE_y	ADV_y	IT_y	RAND_s	BASE_s	ADV_s	IT_s
Health	66.31	84.33	80.16	82.63	16.00	32.52	32.00	26.60
UTKFace	52.27	90.38	90.15	88.15	42.52	62.18	53.28	53.30
FaceScrub	53.53	98.77	97.90	97.66	1.42	33.65	30.23	10.61
Places365	56.16	91.41	90.84	89.82	1.37	31.03	12.56	2.29
Twitter	45.17	76.22	57.97	n/a	6.93	38.46	34.27	n/a
Yelp	42.56	57.81	56.79	n/a	15.88	33.09	27.32	n/a
PIPA	7.67	77.24	52.02	29.64	68.50	87.95	69.96	82.02

過学習モデルの推定時表現は、複数のデータセットでランダム推量を大幅に上回る機微属性を漏らす。
検閲（対立的または情報理論的）は漏洩を減らすが完全には阻止せず、主要タスクの性能を損なうことがある；いくらかの情報は依然として漏洩可能。
過学習した表現は、少量の転移データセットで訓練したモデルを上回ることが多く、機微属性を予測するための再用途化を可能にする。
下位層の検閲は再用途化をブロックできる場合があるが、他の層を利用して依然として攻撃可能性があるため、頑健な保護には内部層検閲が必要。
過学習は一部のタスクに intrinsic に現れるようで、訓練データに存在しない属性でも回復可能であり、単純な検閲ベースのプライバシー保護の限界を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。