Skip to main content
QUICK REVIEW

[論文レビュー] Membership Inference Attacks Against Text-to-image Generation Models

Yixin Wu, Yu Ning|arXiv (Cornell University)|Oct 3, 2022
Privacy-Preserving Technologies in Data被引用数 20
ひとこと要約

この論文はテキストから画像生成モデルにおけるメンバーシップ推定を分析し、訓練データに画像が含まれていたかを推測する四つの攻撃を提案し、意味的レベルの手法が高い精度を発揮する。

ABSTRACT

Text-to-image generation models have recently attracted unprecedented attention as they unlatch imaginative applications in all areas of life. However, developing such models requires huge amounts of data that might contain privacy-sensitive information, e.g., face identity. While privacy risks have been extensively demonstrated in the image classification and GAN generation domains, privacy risks in the text-to-image generation domain are largely unexplored. In this paper, we perform the first privacy analysis of text-to-image generation models through the lens of membership inference. Specifically, we propose three key intuitions about membership information and design four attack methodologies accordingly. We conduct comprehensive evaluations on two mainstream text-to-image generation models including sequence-to-sequence modeling and diffusion-based modeling. The empirical results show that all of the proposed attacks can achieve significant performance, in some cases even close to an accuracy of 1, and thus the corresponding risk is much more severe than that shown by existing membership inference attacks. We further conduct an extensive ablation study to analyze the factors that may affect the attack performance, which can guide developers and researchers to be alert to vulnerabilities in text-to-image generation models. All these findings indicate that our proposed attacks pose a realistic privacy threat to the text-to-image generation models.

研究の動機と目的

  • 大規模な訓練データセットに含まれる機微情報により、テキストから画像生成のプライバシーリスクを動機づける。
  • 出力画像のみを使用する現実的なブラックボックス脅威モデルを定義する。
  • メンバー情報に関する三つの直観に基づく四つの攻撃手法を設計する。
  • 拡散ベースのLDMとシーケンス対シーケンス(DALL-E mini)モデルを複数データセットで評価する。
  • 攻撃効果に影響する要因を特定するための Ablation を提供する。

提案手法

  • 小さなメンバーSubsetとローカル非メンバーから構築した補助データセットを用いて、問題を二値のメンバーシップ分類器としてモデル化する。
  • Attack I: ピクセルレベルと意味レベルの品質区別 (I-P, I-S)。
  • Attack II: ピクセルレベルと意味レベルの再構成誤差 (II-P, II-S)。
  • Attack III: キャプションの意味レベルでの忠実な反映 (III)。
  • Attack IV: 三つの直観を統合し、意味レベルの特徴を用いる。攻撃分類器への入力として埋め込みの連結を用いる。
  • BLIP/CLIPベースのキャプション生成と埋め込みを使用; ピクセル用CNN、意味用3層MLPで攻撃モデルを訓練し、クロスエントロピー損失で評価。

実験結果

リサーチクエスチョン

  • RQ1黒箱の攻撃者が、生成画像のみを用いて、クエリ画像が対象のテキストから画像生成モデルのメンバーであると推定できるか?
  • RQ2テキストから画像生成モデルにおけるメンバー推定に最も効果的なモダリティ(ピクセル対意味)とは?
  • RQ3拡散ベース対シーケンス対シーケンスのテキストから画像モデルは、メンバー推定の脆弱性がどう異なるか?
  • RQ4どの要因(補助データサイズ、デノイジングステップ、キャプション/埋め込みツール)が攻撃の成功に影響を与える?
  • RQ5このようなメンバー漏洩に対する防御戦略は、リソース制約下で実現可能か?

主な発見

メンバー データセットFID スコア非メンバー データセットFID スコア
Laion-Face (30K)9.912MSCOCO-Face (30K)19.308
Laion-Face (26K)9.959VG-Face (26K)20.314
  • 提案された4つの攻撃はいずれもランダムより著しく高い精度を達成しており、場合によってはほぼ100%に近い。
  • 意味レベルの攻撃は、モデルとデータセットを問わず、ピクセルレベルの攻撃より一貫して上回る。
  • Attack IV(全直観を統合)とAttack II-Sは、ほとんどすべての設定で最も良く機能し、しばしばほぼ完璧に近い精度。
  • 同一モダリティ同士の比較を用いた意味埋め込みは、クロスモダリティより強い信号を生む。
  • デノイジングステップを増やしても、画像が使用可能になる後には攻撃性能に対する利益は限定的(例: 約20ステップ程度)
  • 補助データが5%程度しかなくても攻撃の効果は持続する;補助データを減らすと性能はわずかに劣化するのみ。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。