Skip to main content
QUICK REVIEW

[논문 리뷰] Extracting Training Data from Diffusion Models

Nicholas Carlini, Jamie Hayes|arXiv (Cornell University)|2023. 01. 30.
Generative Adversarial Networks and Image Synthesis인용 수 96
한 줄 요약

본 논문은 최첨단 확산 모델이 학습 데이터의 개별 이미지를 기억하고 되풀이할 수 있음을 보이고, Stable Diffusion, Imagen, CIFAR-10–trained models에서 기억된 데이터를 추출하는 공격을 제시한다.

ABSTRACT

Image diffusion models such as DALL-E 2, Imagen, and Stable Diffusion have attracted significant attention due to their ability to generate high-quality synthetic images. In this work, we show that diffusion models memorize individual images from their training data and emit them at generation time. With a generate-and-filter pipeline, we extract over a thousand training examples from state-of-the-art models, ranging from photographs of individual people to trademarked company logos. We also train hundreds of diffusion models in various settings to analyze how different modeling and data decisions affect privacy. Overall, our results show that diffusion models are much less private than prior generative models such as GANs, and that mitigating these vulnerabilities may require new advances in privacy-preserving training.

연구 동기 및 목표

  • 이미지 확산 모델에서 기억화와 추출 가능성 정의.
  • 확산 모델이 학습 이미지를 기억하고 거의 유사한 복제본을 재생성할 수 있음을 보인다.
  • 모델 크기, 데이터, 증강, 중복 제거가 기억화에 미치는 영향을 분석한다.
  • 프라이버시 보호 기법을 평가하고 프라이버시-유용성 트레이드를 식별한다.

제안 방법

  • 확산 모델에 대해 $(\ell,\delta)$-extraction 및 $(k,\ell,\delta)$-eidetic memorization를 수정·정의한다.
  • 확산 모델로부터 기억된 학습 이미지를 추출하기 위해 두 단계의 generate-and-filter 공격을 수행한다.
  • CLIP 기반 임베딩을 사용하여 거의 복제되는 학습 이미지를 식별하고 clique 기반 Memorization detector를 구성한다.
  • 정확도, 하이퍼파라미터, 증강, 중복 제거가 프라이버시에 미치는 영향을 연구하기 위해 CIFAR-10에서 여러 확산 모델을 훈련한다.
  • 프라이버시 누출을 평가하기 위해 블랙박스 및 화이트박스 멤버십 추론 공격을 적용한다.

실험 결과

연구 질문

  • RQ1확산 모델이 학습 이미지를 기억하고 되풀이할 수 있는가?
  • RQ2기억화는 모델 크기, 학습 데이터 및 학습 관행에 따라 어떻게 달라지는가?
  • RQ3확산 모델에서 기억된 데이터를 추출하는 효과적인 실용적 공격은 무엇인가?
  • RQ4기존의 프라이버시 강화 기술은 확산 모델에 대해 허용 가능한 프라이버시-유용성 트레이드를 제공하는가?
  • RQ5기억화 관련 프라이버시 위험 면에서 확산 모델은 GAN과 어떻게 비교되는가?

주요 결과

  • 확산 모델은 Stable Diffusion 및 Imagen의 학습 이미지를 기억하고 재생성했으며 거의 동일한 복제본이 식별되었다.
  • 추출 결과 대상 모델 전반에서 100건이 넘는 기억된 학습 예시가 나왔으며 개인 사진과 로고를 포함하고, 많은 이미지는 허가된 라이선스가 없어.
  • 기억화 비율은 데이터 중복도와 상관관계가 있으며, 중복이 높을수록 추출 비율이 높아진다. 예를 들어 정의된 기준 하에서 93–109 memorized images가 식별되었다.
  • Imagen은 Stable Diffusion보다 기억화 위험이 더 높으며 특히 더 큰 용량과 더 많은 학습 반복에서 그렇다.
  • CIFAR-10 실험은 더 작고 제어된 확산 모델에서도 상당한 기억화를 밝혀내며, 방법에 따라 2,500–1,280개의 추출 이미지가 있다. 저중복 설정에서도 일부 기억된 예가 존재한다.
  • 전통적인 프라이버시 도구(예: 기존의 differential privacy 관련 기술)은 확산 모델에 대해 바람직한 프라이버시-유용성 트레이드를 제공하지 않는다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.