Skip to main content
QUICK REVIEW

[論文レビュー] Red-Teaming the Stable Diffusion Safety Filter

Javier Rando, Daniel Paleka|arXiv (Cornell University)|Oct 3, 2022
Generative Adversarial Networks and Image Synthesis被引用数 25
ひとこと要約

本論文は Stable Diffusion のセーフティフィルターをリバースエンジニアリングし、それが主に性的コンテンツをブロックする一方で暴力を無視していることを示し、公開され、よく文書化された安全対策を主張している。

ABSTRACT

Stable Diffusion is a recent open-source image generation model comparable to proprietary models such as DALLE, Imagen, or Parti. Stable Diffusion comes with a safety filter that aims to prevent generating explicit images. Unfortunately, the filter is obfuscated and poorly documented. This makes it hard for users to prevent misuse in their applications, and to understand the filter's limitations and improve it. We first show that it is easy to generate disturbing content that bypasses the safety filter. We then reverse-engineer the filter and find that while it aims to prevent sexual content, it ignores violence, gore, and other similarly disturbing content. Based on our analysis, we argue safety measures in future model releases should strive to be fully open and properly documented to stimulate security contributions from the community.

研究の動機と目的

  • 公開された ML モデルのリリースに伴う安全性への懸念を喚起し、堅牢で透明性のある安全機能の必要性を訴える。
  • Stable Diffusion のセーフティフィルターが不透明で回避されやすいことを示す。
  • 現行の安全機構の限界を特定し、特に性的コンテンツを優先し暴力や血みどろ描写を軽視している点。
  • ML 安全機能における公開文書化と脆弱性開示のベストプラクティスを提案する。

提案手法

  • CLIP ベースの埋め込み比較をたどって公開コードからセーフティフィルターのワークフローを推測する。
  • フィルターで用いられる 17 の unsafe および 3 の special-care 概念と閾値の動作を説明する。
  • 明示的な概念を知ることなく、プロンプト希薄化戦略がフィルターを回避できることを示す。
  • 難読化された概念埋め込みとテキストプロンプトを回復するために辞書攻撃を用いる。
  • フィルターが性的コンテンツに偏り、暴力、グロ、その他の非性的リスクを無視していることを示す。
  • オープンな安全文書化と脆弱性開示の実践を提唱する。

実験結果

リサーチクエスチョン

  • RQ1Stable Diffusion のセーフティフィルターは露骨な性的コンテンツを信頼性高く検出・遮断するか?
  • RQ2暴力やグロなど、体系的な盲点があり、それらが未遮断のままであるか?
  • RQ3隠された安全概念を回収・リバースエンジニアリングして、フィルターの真の適用範囲を理解できるか?
  • RQ4より安全なオープンMLモデルリリースを支えるガバナンスとセキュリティ実践は何か?

主な発見

  • プロンプト希釈を用いて露骨なコンテンツを生成するよう、セーフティフィルターは回避可能である。
  • フィルターは性的コンテンツに焦点を当て、暴力、グロ、その他の不穏な内容を軽視している。
  • 単純な辞書攻撃で 17 の unsafe 概念のほとんどを回復でき、埋め込みの難読化を明らかにする。
  • 主概念の閾値を低下させる special care 概念を含む 2 段階のフィルタリング機構があり、これは脆弱で文書化されていない。
  • プロンプト設計とバイアスのある CLIP 潜在空間の結びつきにより、偽陽性・偽陰性が発生し、非 SFW コンテンツを unsafe と誤ラベリングすることもある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。