[논문 리뷰] Undetectable Watermarks for Language Models
본 논문은 비밀 키로만 탐지할 수 있는 언어 모델 출력에 대한 탐지 불가 워터마크를 정의하고 구성하며, 텍스트 품질을 보존하고 적응적 질의에 대해서도 강건함을 유지한다.
Recent advances in the capabilities of large language models such as GPT-4 have spurred increasing concern about our ability to detect AI-generated text. Prior works have suggested methods of embedding watermarks in model outputs, by noticeably altering the output distribution. We ask: Is it possible to introduce a watermark without incurring any detectable change to the output distribution? To this end we introduce a cryptographically-inspired notion of undetectable watermarks for language models. That is, watermarks can be detected only with the knowledge of a secret key; without the secret key, it is computationally intractable to distinguish watermarked outputs from those of the original model. In particular, it is impossible for a user to observe any degradation in the quality of the text. Crucially, watermarks should remain undetectable even when the user is allowed to adaptively query the model with arbitrarily chosen prompts. We construct undetectable watermarks based on the existence of one-way functions, a standard assumption in cryptography.
연구 동기 및 목표
- 언어 모델에 대한 탐지 불가 워터마크의 암호학적 개념을 형식화한다.
- 모델 출력의 무작위성 척도로서 경험적 엔트로피를 도입한다.
- 강력한 완전성과 건전성 보장을 갖는 탐지 불가 워터마킹 스킴을 개발한다.
- 가정의 필요성을 보이고 워터마크 제거 가능성에 대해 논의한다.
제안 방법
- 워터마크링을 Setup, Wat, Detect로 비밀 키를 갖는 방식으로 정의한다.
- 경험적 엔트로피와 부분문자열-완전(substring-complete) 변형을 도입한다.
- 탐지 불가하고, 건전하며, 완전한 탐지 불가 워터마킹 스킴을 구성한다.
- 구현 및 분석을 단순화하기 위해 이진 알파벳으로 환원한다.
- 실용화를 위해 무작위 오라클을 PRF로 대체한다.
- 정리 1 및 정리 2를 포함한 이론적 보장을 제공한다.
실험 결과
연구 질문
- RQ1언어 모델 출력에 워터마크를 삽입하더라도 품질에 대한 탐지 가능한 저하 없이 가능할까?
- RQ2적응적 질의 하에서 이러한 워터마크에 대해 어떤 형식 보장(탐지 불가성, 완전성, 건전성)이 달성 가능한가?
- RQ3경험적 엔트로피가 워터마크의 탐지 가능성 및 완전성에 어떻게 영향을 미치는가?
- RQ4무작위 오라클과 같은 이상적 가정 없이도 탐지 불가 워터마크를 구현하는 것이 가능한가?
- RQ5강력한 질의 접근 하에서 탐지 불가 워터마크의 제거 가능성에 대해 얼마나 강건한가?
주요 결과
- 탐지 불가하며 건전하고 O(λ√L)-완전인 탐지 불가 워터마킹 스킴을 구성할 수 있다.
- 강화된 스킴은 탐지 불가하고 건전하며 O(λ√L)-부분문자열-완전성 보장을 달성한다.
- 완전성은 모델 출력의 충분히 높은 경험적 엔트로피를 필요로 한다.
- 무작위 오라클 가정을 제거하면 실용성이 높아지지만 일부 보장(예: 약한 건전성)에 영향을 미친다.
- PRF 기반 대체는 스킴을 실용적으로 만들 수 있으며 건전성에 관련된 트레이드오프가 있다.
- 특정한 강력한 질의 접근 가정하에서 워터마크 제거가 가능하다는 것도 제시한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.