QUICK REVIEW

[논문 리뷰] Red-Teaming the Stable Diffusion Safety Filter

Javier Rando, Daniel Paleka|arXiv (Cornell University)|2022. 10. 03.

Generative Adversarial Networks and Image Synthesis인용 수 25

한 줄 요약

논문은 Stable Diffusion의 안전 필터를 역설계하여 주로 성적 콘텐츠를 차단하는 반면 폭력은 무시하며, 개방적이고 잘 문서화된 안전 조치를 옹호한다.

ABSTRACT

Stable Diffusion is a recent open-source image generation model comparable to proprietary models such as DALLE, Imagen, or Parti. Stable Diffusion comes with a safety filter that aims to prevent generating explicit images. Unfortunately, the filter is obfuscated and poorly documented. This makes it hard for users to prevent misuse in their applications, and to understand the filter's limitations and improve it. We first show that it is easy to generate disturbing content that bypasses the safety filter. We then reverse-engineer the filter and find that while it aims to prevent sexual content, it ignores violence, gore, and other similarly disturbing content. Based on our analysis, we argue safety measures in future model releases should strive to be fully open and properly documented to stimulate security contributions from the community.

연구 동기 및 목표

오픈 ML 모델 공개에 대한 안전 우려를 제기하고 강력하고 투명한 안전 기능의 필요성을 강조한다.
Stable Diffusion 안전 필터가 모호하고 쉽게 우회될 수 있음을 입증한다.
현재 안전 메커니즘의 한계를 식별한다, 특히 성적 콘텐츠에 집중하고 폭력이나 고어에는 미치지 못함.
ML 안전 기능의 개방형 문서화 및 취약점 공개를 위한 모범 사례를 제안한다.]
method:["공개 코드를 통해 CLIP 기반 임베딩 비교를 따라가며 안전 필터의 워크플로를 추론한다.","필터에서 사용하는 17개의 unsafe 개념과 3개의 special-care 개념 및 임계값 작동 방식을 설명한다.","프롬프트 희석 전략이 명시적 개념에 대한 지식 없이도 필터를 우회시킬 수 있음을 보여준다.","사전 어휘 공격(dictionary attack)을 사용해 모호화된 개념 임베딩과 텍스트 프롬프트를 복구한다.","필터가 성적 콘텐츠에 편향되어 있으며 폭력, 고어 및 다른 비성적 위험 요소를 무시한다는 것을 시연한다.","개방형 안전 문서화 및 취약점 공개 실천을 옹호한다."]
research_questions:[

실험 결과

연구 질문

RQ1Stable Diffusion의 안전 필터가 명시적 성적 콘텐츠를 신뢰성 있게 감지하고 차단하는가?
RQ2폭력이나 고어와 같은 체계적 맹점이 남아 있어 차단되지 않는가?
RQ3숨겨진 안전 개념을 복구하거나 역설계하여 필터의 실제 커버 범위를 이해할 수 있는가?
RQ4더 안전한 개방형 ML 모델 공개를 지원하는 거버넌스 및 보안 실천은 무엇인가?]
RQ5key_findings:[

주요 결과

프롬프트 희석을 이용해 명시적 콘텐츠를 생성하도록 필터를 우회할 수 있다.
필터는 성적 콘텐츠에 초점을 맞추고 폭력, 고어 및 기타 불쾌한 콘텐츠를 무시한다.
단순한 사전(dictionary) 공격으로 17개의 unsafe 개념의 대부분을 복구할 수 있어 임베딩의 모호화를 드러낸다.
주요 개념에 대한 임계치를 낮추는 special care 개념이 있는 2단계 필터링 메커니즘이 있으며 이는 취약하고 문서화되지 않았다.
프롬프트 엔지니어링과 편향된 CLIP 잠재 공간 연관이 오탐과 위양을 야기할 수 있으며, 비-SFW 콘텐츠를 unsafe로 잘못 표시할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.