[논문 리뷰] Raising the Cost of Malicious AI-Powered Image Editing
본 논문은 눈에 띄지 않는 적대적 섭동으로 이미지를 면역화하여 대형 diffusion 모델의 현실적인 편집을 차단하고, 배포를 위한 실무 정책 고려를 논의한다.
We present an approach to mitigating the risks of malicious image editing posed by large diffusion models. The key idea is to immunize images so as to make them resistant to manipulation by these models. This immunization relies on injection of imperceptible adversarial perturbations designed to disrupt the operation of the targeted diffusion models, forcing them to generate unrealistic images. We provide two methods for crafting such perturbations, and then demonstrate their efficacy. Finally, we discuss a policy component necessary to make our approach fully effective and practical -- one that involves the organizations developing diffusion models, rather than individual users, to implement (and support) the immunization process.
연구 동기 및 목표
- 악의적인 AI 기반 이미지 편집에 대한 경제적 장벽을 높이자는 동기를 부여한다.
- diffusion 모델 편집에 대한 방어 수단으로 이미지 면역화를 제안한다.
- diffusion 모델 조작를 방해하기 위한 두 가지 섭동 기반 공격을 개발한다.
- 이미지 생성 및 편집 작업에서 면 immuneization의 효과를 평가한다.
- 실용적 배포를 위한 기술정책적 조치를 논의한다.
제안 방법
- 모델 확산 및 latent diffusion models (LDMs)과 그 편집 능력을 모델링한다.
- 두 가지 섭동 전략인 인코더 공격과 diffusion 공격을 설명하고, 이를 projected gradient descent (PGD)로 최적화한다.
- 인코더 공격을 ||E(x+δ) − z_target||^2를 최소화하는 형태로 ‖δ‖∞ ≤ ε 아래 구성한다.
- diffusion 공격을 ‖f(x+δ) − x_target‖^2를 최소화하는 형태로 ‖δ‖∞ ≤ ε 아래 구성하고, 잘라진 diffusion 과정에 대해 역전파한다.
- 면 immuneization이 비현실적인 편집을 유도하고 CLIP 임베딩을 통한 이미지-프롬프트 유사성을 감소시킨다고 보인다.
- 모델 개발자가 면역화를 지원하기 위한 순방향 호환성 및 정책 API를 논의한다.
실험 결과
연구 질문
- RQ1눈에 띄지 않는 섭동으로 diffusion-model 편집에 대해 이미지를 면역화할 수 있는가?
- RQ2인코더 공격과 diffusion 공격은 효과성 및 강인성 면에서 차이가 있는가?
- RQ3면 immuneization이 편집의 현실성과 텍스트 프롬프트와의 정렬성에 어느 정도 영향을 주는가?
- RQ4모델의 발전을 해치지 않으면서 대규모 면 immuneization을 배포하기 위한 정책 메커니즘은 무엇인가?
주요 결과
| 방법 | FID ↓ | PR ↑ | SSIM ↑ | PSNR ↑ | VIFp ↑ | FSIM ↑ |
|---|---|---|---|---|---|---|
| 면 immuneization baseline (랜덤 노이즈) | 82.57 | 1.00 | 0.75±0.13 | 19.21±4.00 | 0.43±0.13 | 0.83±0.08 |
| 면 immuneization (인코더 공격) | 130.6 | 0.95 | 0.58±0.11 | 14.91±2.78 | 0.30±0.10 | 0.73±0.08 |
| 면 immuneization ( diffusion 공격) | 167.6 | 0.87 | 0.50±0.09 | 13.58±2.23 | 0.24±0.09 | 0.69±0.06 |
- 면 immuneization된 이미지는 비면역화 편집에 비해 여러 지표에서 편집이 상당히 다르게 나타난다.
- diffusion 공격 기반 면 immuneization이 인코더 공격 및 무작위 노이즈 기반 대비 가장 강한 현실적 편집 저하를 유발한다.
- 정량 지표에서 면 immuneization된 이미지의 FID가 더 나쁘고 프롬프트와의 유사도가 낮아진다(예: diffusion 공격의 FID 167.6, PR 0.87, SSIM 0.50±0.09, PSNR 13.58±2.23, VIFp 0.24±0.09, FSIM 0.69±0.06).
- 생성된 편집과 프롬프트 간의 이미지-프롬프트 유사도가 diffusion 기반 면 immuneization 이후 감소하여 프롬프트의 효과가 감소한다.
- 랜덤 노이즈를 basel ine으로 사용하는 경우 diffusion 모델 편집을 무력화하는 데 효과가 없다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.