QUICK REVIEW

[論文レビュー] Machine Learning Models that Remember Too Much

Congzheng Song, Thomas Ristenpart|arXiv (Cornell University)|Sep 22, 2017

Adversarial Robustness in Machine Learning参考文献 57被引用数 31

ひとこと要約

この論文は、悪意ある機械学習プロバイダーが、訓練プロセスのわずかな改変を通じて、正確で汎用性のあるモデルを訓練できることを示している。その結果、訓練データの機微な情報を秘匿的に埋め込み、漏洩させることができる。ブラックボックスアクセスのみでも、合成されたラベル付きデータへの過適合を活用することで、敵対者は訓練データの大半を抽出でき、ML-as-a-serviceのパイプラインにおける深刻なプライバシーリスクを露呈する。

ABSTRACT

Machine learning (ML) is becoming a commodity. Numerous ML frameworks and services are available to data holders who are not ML experts but want to train predictive models on their data. It is important that ML models trained on sensitive inputs (e.g., personal images or documents) not leak too much information about the training data. We consider a malicious ML provider who supplies model-training code to the data holder, does not observe the training, but then obtains white- or black-box access to the resulting model. In this setting, we design and implement practical algorithms, some of them very similar to standard ML techniques such as regularization and data augmentation, that "memorize" information about the training dataset in the model yet the model is as accurate and predictive as a conventionally trained model. We then explain how the adversary can extract memorized information from the model. We evaluate our techniques on standard ML tasks for image classification (CIFAR10), face recognition (LFW and FaceScrub), and text analysis (20 Newsgroups and IMDB). In all cases, we show how our algorithms create models that have high predictive power yet allow accurate extraction of subsets of their training data.

研究の動機と目的

悪意あるMLプロバイダーが、予測性能を低下させることなく、機微な訓練データをモデルに埋め込む方法を調査すること。
わずかな改変が施されたが、見かけ上正当な訓練手法に見える方法で訓練されたモデルが、依然として訓練データに関する重要な情報を漏洩させることを実証すること。
ホワイトボックスおよびブラックボックスの敵対者も、実用的で静かで効果的な手法を用いて、記憶された訓練データを抽出できることを示すこと。
ユーザーが検証されていない訓練コードを信頼するML-as-a-serviceやサードパーティのMLフレームワークにおけるプライバシーリスクを強調すること。
ML訓練における最小権限の原則を提唱し、モデルが必要最低限の情報しか学習しないようにすること。

提案手法

著者らは、本物の訓練データからの秘密のビットをラベル付けした合成入力を訓練データに追加することで、モデルがその情報を記憶するように仕向ける「容量乱用攻撃」を導入した。
ホワイトボックス設定では、秘密をモデルパラメータの最下位ビットに直接埋め込むか、正則化を用いてパラメータと機微なデータを関連付ける。
ブラックボックス抽出では、秘密ラベルが埋め込まれた合成入力へのモデルの過適合に依存し、入力出力クエリを通じてデータ再構築を可能にする。
この手法は、正則化やデータ拡張といった標準的なML技術を悪用することで、最終ユーザーには良性の訓練と区別がつかない。
複数のベンチマーク（CIFAR10、LFW、FaceScrub、20 Newsgroups、IMDB）で評価され、主タスクの精度に著しい低下は認められなかった。
抽出は、合成入力をモデルに問い合わせ、出力ラベルを観測することで行われ、埋め込まれた秘密が露わになる。

実験結果

リサーチクエスチョン

RQ1悪意あるMLプロバイダーは、高い精度を維持しながら、機微な訓練データを埋め込み、漏洩させることができるか？
RQ2合成されたラベルが付加されたデータで訓練されたモデルに対して、ブラックボックスアクセスのみで敵対者がどの程度の訓練データを抽出できるか？
RQ3正則化やデータ拡張といった標準的なML技術が、悪意ある操作を受けると、どのようにしてデータ漏洩の手段となるか？
RQ4容量乱用手法で訓練されたモデルにおいて、モデルの有用性とデータ漏洩のトレードオフはどのようなものか？
RQ5モデル圧縮やプライバシー保護技術は、こうした隠れたデータ漏洩を緩和できるか？

主な発見

著者らは、10,000ドキュメントの訓練コーパスの70％を漏洩させながらも、モデル精度に影響を与えないテキスト分類器を成功裏に構築した。
ブラックボックス設定では、バイナリジェンダー分類器が、秘密ラベルが埋め込まれた合成入力へのクエリを通じて、正確に秘密の訓練データを再構築できた。
合成データ拡張と秘密ラベルを用いた訓練により、主タスクでほぼ完璧な精度を達成した一方で、合成入力への過適合が生じ、データ抽出が可能になった。
最下位ビット符号化を用いたホワイトボックス攻撃では、モデルが良性と見分けがつかない状態であっても、モデルパラメータから訓練データを正確に再構築できた。
悪意ある訓練手法は、正則化やデータ拡張といった標準的なML実践を模倣していたため、データ所有者には検出不可能であった。
結果として、強力な一般化性能と高い精度を備えたモデルであっても、悪意ある意図で訓練された場合、依然として機微な情報を漏洩させる可能性があることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。