[논문 리뷰] Watermarking Text Generated by Black-Box Language Models
이 논문은 블랙박스 LLM에서 생성된 텍스트에 인증 워터마크를 삽입하고 검출하는 프레임워크를 제시하여 제3자가 모델 내부에 접근하지 않고도 콘텐츠에 워터마크를 삽입하고 확인할 수 있게 하며, 일반적인 텍스트 공격에 대한 강건성을 시연한다.
LLMs now exhibit human-like skills in various fields, leading to worries about misuse. Thus, detecting generated text is crucial. However, passive detection methods are stuck in domain specificity and limited adversarial robustness. To achieve reliable detection, a watermark-based method was proposed for white-box LLMs, allowing them to embed watermarks during text generation. The method involves randomly dividing the model vocabulary to obtain a special list and adjusting the probability distribution to promote the selection of words in the list. A detection algorithm aware of the list can identify the watermarked text. However, this method is not applicable in many real-world scenarios where only black-box language models are available. For instance, third-parties that develop API-based vertical applications cannot watermark text themselves because API providers only supply generated text and withhold probability distributions to shield their commercial interests. To allow third-parties to autonomously inject watermarks into generated text, we develop a watermarking framework for black-box language model usage scenarios. Specifically, we first define a binary encoding function to compute a random binary encoding corresponding to a word. The encodings computed for non-watermarked text conform to a Bernoulli distribution, wherein the probability of a word representing bit-1 being approximately 0.5. To inject a watermark, we alter the distribution by selectively replacing words representing bit-0 with context-based synonyms that represent bit-1. A statistical test is then used to identify the watermark. Experiments demonstrate the effectiveness of our method on both Chinese and English datasets. Furthermore, results under re-translation, polishing, word deletion, and synonym substitution attacks reveal that it is arduous to remove the watermark without compromising the original semantics.
연구 동기 및 목표
- 블랙박스 LLM이 생성한 텍스트의 신뢰할 수 있는 탐지 및 인증 필요성에 대한 동기 부여.
- 모델 확률 또는 내부에 접근하지 않고 작동하는 워터마킹 프레임워크를 제안.
- 워터마크를 삽입하기 위한 이진 인코딩 및 맥락 기반 동의어 대체 방법 설계.
- 빠르고 정확한 모드를 갖춘 통계적 탐지 메커니즘 제공.
- 다국어(언어 간)에서 번역 및 동의어 변경과 같은 재작성 공격에 대한 강건성 평가.
제안 방법
- 각 단어를 앞선 단어의 해시와 단어의 해시에 따라 이진 비트를 매핑하는 이진 인코딩 함수를 정의한다.
- POS 필터 및 의미/유사도 검사 등을 사용하여 비트-0 단어를 비트-1을 나타내는 맥락 기반 동의어로 대체하여 워터마크를 삽입한다.
- 여러 가지 유사도 검사(문장, 전체 단어, 맥락화된 단어 임베딩)와 BERT 기반 맥락 의존 동의어 생성을 활용하여 고품질 동의어를 선택한다.
- 의미를 보존하면서 비트-1 발생을 극대화하기 위한 워터마크 주도 동의어 샘플링 알고리즘을 사용한다.
- 비트-1 인코딩 비율에 대한 통계적 가설 검정을 통해 워터마크를 탐지하며 빠르고 정밀한 탐지 모드를 제공한다.
- 표준 NLP 도구(SHA-256, BERT, RoBERTa, GloVe)를 사용하여 유사도를 계산하며 중국어 및 영어 HC3 데이터셋에서 실험적으로 평가한다.
실험 결과
연구 질문
- RQ1블랙박스 LLM이 생성한 텍스트에 대해 모델 확률 또는 내부에 접근하지 않고도 워터마크를 신뢰성 있게 삽입할 수 있는가?
- RQ2번역, 문장 다듬기, 단어 삭제 및 동의어 대체와 같은 포스트 프로세싱 공격에 대해 워터마크가 강건한가?
- RQ3프레임워크가 영어와 중국어와 같은 다국어에서 작동하고 의미적 무결성을 유지하는가?
- RQ4빠른 탐지 모드와 정밀 탐지 모드가 현실적 조건에서 워터마크를 식별하는 데 얼마나 효과적인가?
주요 결과
- 제안된 프레임워크는 영어와 중국어 데이터 모두에서 의미를 보전하면서 블랙박스 모델의 텍스트에 인증 워터마크를 가능하게 한다.
- 제안된 통계 검정을 이용한 워터마크 탐지는 제어된 환경에서 워터마크가 있는 텍스트와 없는 텍스트를 높은 유의도로 구분할 수 있다.
- 일반적인 포스트 프로세싱 공격하에서도 원래의 의미를 손상시키지 않으면서 워터마크를 제거하는 것은 공격자에게 여전히 도전적이다.
- 빠른 모드와 정밀 모드의 두 가지 탐지 모드는 계산 시간과 탐지 정확도 사이의 트레이드를 제공하며 실험에서 ROC/AUC 결과가 강한 탐지 성능을 나타낸다.
- HC3 실험에서 맥락 기반 동의어 생성과 함께 접근 방식이 작동하며 여러 유사도 기준으로 측정된 의미 품질을 유지한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.