[論文レビュー] Privacy Risks of Explaining Machine Learning Models.
この論文は、勾配ベースの帰属割り当てと影響測定を含む機械学習モデルの説明が、機密な訓練データ情報の漏洩を引き起こし、メンバー資格攻撃および再構築攻撃を可能にすることを調査している。本研究では、特にマイノリティや外れ値において、透明性メカニズムがデータプライバシーを意図せず損なう可能性があるという顕著なプライバシーリスクが明らかになった。
Can an adversary exploit model explanations to infer sensitive information about the models' training set? To investigate this question, we first focus on membership inference attacks: given a data point and a model explanation, the attacker's goal is to decide whether or not the point belongs to the training data. We study this problem for two popular transparency methods: gradient-based attribution methods and record-based influence measures. We develop membership inference attacks based on these model explanations, and extensively test them on a variety of datasets. For gradient-based methods, we show that the explanations can leak a significant amount of information about the individual data points in the training set, much beyond what is leaked through the predicted labels. We also show that record-based measures can be effectively, and even more significantly, exploited for membership inference attacks. More importantly, we design reconstruction attacks against this class of model explanations. We demonstrate that they can be exploited to recover significant parts of the training set. Finally, our results indicate that minorities and outliers are more vulnerable to these type of attacks than the rest of the population. Thus, there is a significant disparity for the privacy risks of model explanations across different groups.
研究の動機と目的
- モデルの説明が訓練データに関する機密情報を推論するために悪用可能かどうかを調査すること。
- 勾配ベースの帰属割り当てと影響測定を用いたメンバー資格推定攻撃の有効性を評価すること。
- モデルの説明から訓練データを再構築する攻撃を検討すること。
- 特にマイノリティや外れ値を含む人種的・文化的グループ間でのプライバシーリスクの差を検証すること。
- モデルの解釈可能性技術に内在するプライバシーのトレードオフを強調すること。
提案手法
- 訓練データに含まれるデータポイントかどうかを特定するために、勾配ベースの帰属割り当て手法を用いたメンバー資格推定攻撃を開発した。
- 記録ベースの影響測定に基づいたメンバー資格推定攻撃を設計し、訓練データへの所属状況を評価した。
- モデルの説明を活用して訓練データの顕著な部分を回復する再構築攻撃を提案した。
- 一般化可能性と有効性を評価するために、複数のデータセットで攻撃を評価した。
- 予測ラベルのみから生じる漏洩と比較して、モデルの説明からのプライバシー漏洩を分析した。
- マイノリティや外れ値を含むデータサブグループ間での脆弱性の違いを分析した。
実験結果
リサーチクエスチョン
- RQ1勾配ベースのモデルの説明を用いてメンバー資格推定攻撃を構築できるか?
- RQ2影響ベースの説明は、訓練データへの所属状況に関する情報をどの程度漏洩するか?
- RQ3モデルの説明から訓練データを再構築可能か?また、どの程度の正確さで可能か?
- RQ4特定のデータサブグループ、例えばマイノリティや外れ値は、これらの攻撃に対してより脆弱であるか?
- RQ5モデルの説明からのプライバシーリスクは、予測ラベルのみからのものと比べてどのように異なるか?
主な発見
- 勾配ベースの帰属割り当ては、予測ラベルのみの場合よりも、個々の訓練データポイントに関する情報を著しく漏洩する。
- 影響ベースの説明は、勾配ベースの手法よりもメンバー資格推定攻撃に対してさらに効果的である。
- 再構築攻撃は、モデルの説明を活用することで訓練データの顕著な部分を回復できる。
- マイノリティや外れ値は、メンバー資格攻撃および再構築攻撃に対して顕著に高い脆弱性を示す。
- モデルの説明からのプライバシーリスクは一様に分布しておらず、異なる集団間で露出の差が生じる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。