[논문 리뷰] REMARK-LLM: A Robust and Efficient Watermarking Framework for Generative Large Language Models
REMARK-LLM은 학습 기반의 세 모듈 워터마킹 프레임워크(메시지 인코딩, 재매개변수화, 디코딩)와 최적화된 빔 검색을 도입하여, 의미를 보존하고 강건성을 유지하면서 기존 연구보다 최대 2배 더 많은 워터마크 비트를 삽입합니다.
We present REMARK-LLM, a novel efficient, and robust watermarking framework designed for texts generated by large language models (LLMs). Synthesizing human-like content using LLMs necessitates vast computational resources and extensive datasets, encapsulating critical intellectual property (IP). However, the generated content is prone to malicious exploitation, including spamming and plagiarism. To address the challenges, REMARK-LLM proposes three new components: (i) a learning-based message encoding module to infuse binary signatures into LLM-generated texts; (ii) a reparameterization module to transform the dense distributions from the message encoding to the sparse distribution of the watermarked textual tokens; (iii) a decoding module dedicated for signature extraction; Furthermore, we introduce an optimized beam search algorithm to guarantee the coherence and consistency of the generated content. REMARK-LLM is rigorously trained to encourage the preservation of semantic integrity in watermarked content, while ensuring effective watermark retrieval. Extensive evaluations on multiple unseen datasets highlight REMARK-LLM proficiency and transferability in inserting 2 times more signature bits into the same texts when compared to prior art, all while maintaining semantic integrity. Furthermore, REMARK-LLM exhibits better resilience against a spectrum of watermark detection and removal attacks.
연구 동기 및 목표
- LLM으로 생성된 텍스트에 대한 IP 보호와 콘텐츠 추적이 왜 중요한지 동기를 제시한다.
- LLM 출력에 맞춘 강력하고 효율적인 워터마킹 프레임워크를 제안한다.
- 메시지 인코딩, 재매개변수화, 디코딩의 세 모듈 아키텍처와 최적화된 디코딩 빔 검색을 설계한다.
- 변환에 대한 강건성을 유지하면서 의미를 보존하고, 신뢰할 수 있는 워터마크 추출을 가능하게 하기 위해 엔드투엔드로 학습한다.
- 보지 못한 데이터셋과 공격 상황에서도 전이성과 탄력성을 입증한다.
제안 방법
- Seq2Seq 기반 메시지 인코딩 모듈을 사용하여 LLM 생성 텍스트 분포에 이진 서명을 삽입한다.
- Dense 워터마크 분포를 희소 토큰 분포로 변환하기 위해 Gumbel-Softmax를 사용한 재매개변수화 단계를 적용한다.
- 워터마크된 표현에서 삽입된 서명을 복구하기 위해 트랜스포머 기반 메시지 디코더를 활용한다.
- 워터마크 삽입 중 일관성을 유지하고 추출성을 극대화하기 위해 최적화된 빔 검색을 통합한다.
- 의미 손실과 메시지 회복 손실을 포함한 엔드투엔드 학습과 함께 악의적 변환에 대한 강건성을 보장한다.
- 세그먼트 및 긴 시퀀스 텍스트에서 베이스라인(CATER, KGW, EXP, AWT)과 대조 평가하고, 보지 못한 데이터에 대한 전이성을 테스트한다.

실험 결과
연구 질문
- RQ1REMARK-LLM은 생성된 텍스트의 의미 품질을 해치지 않으면서도 강력한 워터마크를 삽입할 수 있는가?
- RQ2일반적인 텍스트 변환 및 공격 하에서 워터마크 추출 성능은 REMARK-LLM은 어떠한가?
- RQ3품질을 유지하면서 이전의 신경망 기반 방법들보다 더 긴 워터마크 서명을 삽입할 수 있는가?
- RQ4재학습 없이도 프레임워크가 보지 못한 데이터셋 간에 전이되는가?
- RQ5기존 워터마킹 스킴과 비교했을 때 효율성 및 강건성 특성은 어떠한가?
주요 결과
- REMARK-LLM은 같은 콘텐츠에서 선행 연구 대비 2× 더 많은 서명 비트를 삽입한다.
- 삽입 속도는 비교에서 예를 들어 1.5초 이내로 빠른 것이 시연되었다.
- 프레임워크는 평균 BERT 점수 약 0.90로 의미적 무결성을 유지하고, 추가 미세 조정 없이 보지 못한 소스로의 전이 가능성을 보인다.
- 워터마크 탐지 및 제거 공격 하에서 REMARK-LLM은 평균 AUC 0.85를 달성한다.
- 기준선과 비교했을 때, REMARK-LLM은 시맨틱스를 더 잘 보존하고 일관성을 유지하는 동시에 서명 용량을 증가시킨다.
- 롱 시퀀스 워터마킹(예: 640 토큰)은 경쟁 방법에 비해 우수한 성능을 보인다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.