[논문 리뷰] Prompt Stealing Attacks Against Text-to-Image Generation Models
본 논문은 텍스트-이미지 모델에 대한 학습 기반 프롬프트 도용 공격인 PromptStealer를 소개하며, Lexica-Dataset에서 평가했고, 의미적, 수식어, 그리고 이미지 유사도 측면에서 베이스라인을 능가하고 더 빠르며, 방어책(PromptShield)을 제안한다.
Text-to-Image generation models have revolutionized the artwork design process and enabled anyone to create high-quality images by entering text descriptions called prompts. Creating a high-quality prompt that consists of a subject and several modifiers can be time-consuming and costly. In consequence, a trend of trading high-quality prompts on specialized marketplaces has emerged. In this paper, we perform the first study on understanding the threat of a novel attack, namely prompt stealing attack, which aims to steal prompts from generated images by text-to-image generation models. Successful prompt stealing attacks directly violate the intellectual property of prompt engineers and jeopardize the business model of prompt marketplaces. We first perform a systematic analysis on a dataset collected by ourselves and show that a successful prompt stealing attack should consider a prompt's subject as well as its modifiers. Based on this observation, we propose a simple yet effective prompt stealing attack, PromptStealer. It consists of two modules: a subject generator trained to infer the subject and a modifier detector for identifying the modifiers within the generated image. Experimental results demonstrate that PromptStealer is superior over three baseline methods, both quantitatively and qualitatively. We also make some initial attempts to defend PromptStealer. In general, our study uncovers a new attack vector within the ecosystem established by the popular text-to-image generation models. We hope our results can contribute to understanding and mitigating this emerging threat.
연구 동기 및 목표
- 프롬프트(주체 + 수정자)가 텍스트-이미지 모델이 생성한 이미지에서 도난될 수 있음을 입증한다.
- Lexica-Dataset을 생성하여 프롬프트 구성 요소와 이미지 생성에 미치는 영향을 분석한다.
- PromptStealer를 개발하여 이미지 캡션 생성과 다중 라벨 분류기를 결합해 프롬프트를 복구한다.
- PromptStealer를 의미적, 수정자, 이미지 유사도 및 효율성 면에서 베이스라인과 비교 평가한다.
- 초기 방어책(PromptShield)을 제안하고 그 한계를 논의한다.
제안 방법
- Lexica에서 25만 개의 프롬프트-이미지 쌍을 수집하고 중복 제거하여 61,467쌍으로 구성한다.
- 주체와 수정자 모두가 생성된 이미지에 영향을 준다는 것을 보여주기 위해 프롬프트 구조를 분석하고 수정자를 카테고리로 분류한다.
- BLIP 기반 이미지 캡션 생성을 통해 주체를 추출하고 ML-Decoder 기반의 다중 라벨 분류기를 사용해 수정자를 예측한 뒤, 주체와 수정자를 연결해 도난된 프롬프트를 얻는다.
- 의미적 유사도, 수정자 유사도, 이미지 유사도 및 효율성 지표를 사용해 이미지 캡션만 사용한 baselines와 CLIP Interrogator를 비교 평가한다.
- PromptStealer가 약 0.01초 per prompt의 효율성을 보이며(예: 의미적 유사도 0.66, 수정자 유사도 0.43, 이미지 유사도 0.79) baselines보다 우수한 성능을 보이고, 전이 가능성 및 변화 실험을 탐구한다.
![Figure 1 : An image generated by Stable Diffusion [ 40 ] . The corresponding prompt is “cozy enchanted treehouse in ancient forest, diffuse lighting, fantasy, intricate, elegant, highly detailed, lifelike, photorealistic, digital painting, artstation, illustration, concept art, smooth, sharp focus,](https://ar5iv.labs.arxiv.org/html/2302.09923/assets/x1.png)
실험 결과
연구 질문
- RQ1대상 프롬프트가 생성된 이미지에서 주체와 수정자를 모두 포착해 도난당할 수 있는가?
- RQ2주체와 수정자가 생성된 이미지 품질 및 공격 효과에 어떻게 기여하는가?
- RQ3학습 기반 접근 방식이 정확도와 속도 면에서 기존 도구(캡션 생성, CLIP Interrogator)와 비교해 우수한가?
- RQ4정당한 사용에 심각한 영향을 주지 않으면서 프롬프트 도용을 완화할 수 있는 방어책은 무엇인가?
- RQ5도난된 프롬프트가 유사한 이미지나 프롬프트 간에 얼마나 전이 가능한가?
주요 결과
| Method | Time (s) |
|---|---|
| Image Captioning | 0.01 |
| CLIP Interrogator | 7.89 |
| PromptStealer | 0.01 |
- PromptStealer는 의미적 유사도에서 두 baselines를 능가(0.66 대 0.52), 수정자 유사도에서 0.43 대 0.01로 우수하고, 이미지 유사도에서 0.79 대 0.77로 앞선다.
- 이미지 캡션만으로는 의미적 유사도가 낮고(0.19) 수정자를 생성할 수 없으므로 수정자 복구의 필요성을 강조한다.
- PromptStealer는 NVIDIA DGX-A100 서버에서 프롬프트당 약 0.01초의 높은 효율성을 보이며, CLIP Interrogator는 7.89초에 불과하다.
- 주체 추출에 BLIP, 다중 라벨 수정자 예측에 ML-Decoder를 사용해 주체와 수정자 동시 추론이 가능하다.
- PromptStealer는 주체를 대체해 유사한 이미지를 생성하는 등 양방향 전이 가능성을 보이며 프롬프트 간의 robust한 적용성을 시사한다.
- 초기 방어책(PromptShield)은 적대적 교란을 사용해 프롬프트 도용을 완화할 수 있지만 강력한 방어자 가정에 의존하며 적응형 공격에 취약하다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.