Skip to main content
QUICK REVIEW

[논문 리뷰] Watermarks in the Sand: Impossibility of Strong Watermarking for Generative Models

Hanlin Zhang, Benjamin Edelman|arXiv (Cornell University)|2023. 11. 07.
Advanced Steganography and Watermarking Techniques인용 수 10
한 줄 요약

자연스러운 가정 하에서 생성 모델에 대한 강력한 워터마킹이 불가능하다는 것을 증명하고, 출력 품질에 최소한의 영향을 미치면서 세 가지 LLM 체계의 워터마크를 제거하는 일반적인 품질 보존 공격을 제시한다.

ABSTRACT

Watermarking generative models consists of planting a statistical signal (watermark) in a model's output so that it can be later verified that the output was generated by the given model. A strong watermarking scheme satisfies the property that a computationally bounded attacker cannot erase the watermark without causing significant quality degradation. In this paper, we study the (im)possibility of strong watermarking schemes. We prove that, under well-specified and natural assumptions, strong watermarking is impossible to achieve. This holds even in the private detection algorithm setting, where the watermark insertion and detection algorithms share a secret key, unknown to the attacker. To prove this result, we introduce a generic efficient watermark attack; the attacker is not required to know the private key of the scheme or even which scheme is used. Our attack is based on two assumptions: (1) The attacker has access to a "quality oracle" that can evaluate whether a candidate output is a high-quality response to a prompt, and (2) The attacker has access to a "perturbation oracle" which can modify an output with a nontrivial probability of maintaining quality, and which induces an efficiently mixing random walk on high-quality outputs. We argue that both assumptions can be satisfied in practice by an attacker with weaker computational capabilities than the watermarked model itself, to which the attacker has only black-box access. Furthermore, our assumptions will likely only be easier to satisfy over time as models grow in capabilities and modalities. We demonstrate the feasibility of our attack by instantiating it to attack three existing watermarking schemes for large language models: Kirchenbauer et al. (2023), Kuditipudi et al. (2023), and Zhao et al. (2023). The same attack successfully removes the watermarks planted by all three schemes, with only minor quality degradation.

연구 동기 및 목표

  • 모델 출력과 인간 텍스트를 구분하고 악용을 방지하기 위해 견고한 워터마킹의 필요성을 제시한다.
  • 생성 모델에 대한 비밀 키 강력 워터마킹을 형식적으로 정의한다.
  • 현실적 가정하에서 이러한 워터마킹이 강건하지 못하다는 불가능성 결과를 증명한다.
  • 품질 및 섭동 오라클을 이용한 일반적인 공격을 제안하고 구체적으로 구현한다.
  • 세 가지 기존 LLM 워터마크 체계에 대해 공격을 경험적으로 시연한다.

제안 방법

  • 프롬프트-응답 쌍에 대한 일반적인 품질 함수 Q를 포함하여 생성 모델을 형식화한다.
  • Watermark 및 Detect 절차를 이용한 비밀 키 워터마킹을 정의하고 거짓 양성/거짓 음성 비율을 정량화한다.
  • Perturbation 오라클과 품질 오라클을 이용한 품질 보존 무작위 보행에 기초한 일반적이고 효율적인 공격(Algorithm 1)을 도입한다.
  • 공격자가 높은 확률로 워터마크를 제거하면서 품질을 보존할 수 있음을 보이는 비공식 주요 결과(Theorem 1)를 증명한다; 형식적 진술은 부록 B에 있다.
  • Kirchenbauer 등(2023a), Kuditipudi 등(2023), Zhao 등(2023a)의 스킴을 Llama2-7B에서 구체화하고 테스트한다.
  • 워터마크 탐지가 최소한의 품질 저하로 악화된다는 실험적 증거를 제공한다.

실험 결과

연구 질문

  • RQ1생성 모델에 대해 자연스러운 가정 하에서 강력한 워터마킹이 달성될 수 있는가?
  • RQ2출력 품질을 보존하면서 워터마크를 지울 수 있는 효율적인 공격자가 존재하는가?
  • RQ3비밀 키 워터마킹 체계가 워터마크된 모델에 대한 블랙박스 접근 하에서 여전히 안전한가?
  • RQ4공격과 그 함의가 서로 다른 워터마킹 체계 및 모달리티 전반에 걸쳐 어떻게 일반화되는가?

주요 결과

프레임워크C4 실제 뉴스GPT-4 판정z-점수p-값
UMD [ 27 ]6.236 → 1.6280.002 → 0.187-0.0877
Unigram [ 67 ]8.210 → 1.4564.563e-11 → 0.208-0.0812
EXP [ 31 ]3.540 → 0.745< 1/5000 → 0.3119-0.0675
  • 품질 오라클과 섭동 오라클이 주어지면 높은 확률로 워터마크를 제거하고 품질을 보존하는 효율적인 공격자가 존재한다.
  • 공격은 세 가지 공개된 LLM 워터마크 체계에서 워터마크를 성공적으로 제거하되 품질 저하는 미미하다.
  • 실험 결과 워터마크 탐지 확률이 감소하고(z-점수와 p-값이 비유의적 워터마킹을 나타냄) 출력 품질은 비교에서 GPT-4가 판단한 대로 유지된다.
  • 본 연구는 구성적 공격과 형식적/비형식적 이론적 결과를 제공한다(비공식 Theorem 1; 형식 진술은 부록 B에).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.