QUICK REVIEW

[논문 리뷰] Watermark Stealing in Large Language Models

Nikola Jovanović, Robin Staab|arXiv (Cornell University)|2024. 02. 29.

Advanced Steganography and Watermarking Techniques인용 수 6

한 줄 요약

본 논문은 LLM에서 워터마크 도용을 정형화하고, 저비용으로 실제 속임 및 scrubbing 공격을 가능하게 하는 자동화된 도용 방법을 시연하여 최첨단 워터마크링 스키마에 대한 실용적 스푸핑과 스크러빙 공격을 구현하고 배포 가정에 의문을 제기한다.

ABSTRACT

LLM watermarking has attracted attention as a promising way to detect AI-generated content, with some works suggesting that current schemes may already be fit for deployment. In this work we dispute this claim, identifying watermark stealing (WS) as a fundamental vulnerability of these schemes. We show that querying the API of the watermarked LLM to approximately reverse-engineer a watermark enables practical spoofing attacks, as hypothesized in prior work, but also greatly boosts scrubbing attacks, which was previously unnoticed. We are the first to propose an automated WS algorithm and use it in the first comprehensive study of spoofing and scrubbing in realistic settings. We show that for under $50 an attacker can both spoof and scrub state-of-the-art schemes previously considered safe, with average success rate of over 80%. Our findings challenge common beliefs about LLM watermarking, stressing the need for more robust schemes. We make all our code and additional examples available at https://watermark-stealing.org.

연구 동기 및 목표

대립적 속임 및 스크러빙 공격에 대한 LLM 워터마크의 강건성 평가
자동화된 워터마크 도용 알고리즘의 제안 및 구현
KGW2-SELFHASH 및 기타 스키마에서 현실적 위협 모델 하의 스푸핑 및 스크러빙 효과 평가
실세계 설정에서 워터마크 도용의 실용적 비용 및 성능 트레이드오프 정량화
더 강건한 워터마크링 스키마 설계에 대한 시사점 강조

제안 방법

감지기 접근성 및 기본 응답 가용성(D0/D1, B0/B1)을 포함하는 위협 모델 정의
관찰된 워터마크 텍스트로부터 경험적 pw 및 pb 분포를 구축하여 토큰을 점수화하는 자동화된 워터마크 도용 알고리즘 개발
맥락 및 부분 맥락 신호를 사용하여 초일관점 s⋆(T, [T1T2T3])를 계산하고 녹색 토큰을 예측
보조 모델의 로짓에 δatt·s⋆를 더해 녹색 토큰을 촉진하도록 하는 하류 스푸핑(Eq. 2)
패러프레이징 생성 중 녹색 토큰을 약화시키기 위해 음의 δatt를 사용하여 하류 스크러빙 수행
KGW2-SELFHASH 및 기타 스키마에 대해 평가하고, 스푸핑은 FPR⋆@f, 스크러빙은 FNR⋆@f 및 GPT-4 스타일 텍스트 품질 검사로 측정

실험 결과

연구 질문

RQ1워터마크 도용이 주요 워터마크 스키마에서 현실적인 설정에서 워터마크가 부여된 출력물을 안정적으로 스푸핑할 수 있는가?
RQ2특히 긴 텍스트의 경우 도용이 스캐빙 효과를 얼마나 향상시키는가?
RQ3효과적인 스푸핑 또는 스크러빙 공격을 가하기 위한 실제 질의 비용은 얼마인가?
RQ4다양한 위협 모델 설정(D0/D1, B0/B1)이 공격 가능성과 결과에 어떤 차이를 만드는가?

주요 결과

자동화된 워터마크 도용은 여러 스키마에서 평균 성공률이 80%를 넘고 단일 질의 비용이 $50 미만인 상태에서 스푸핑을 달성한다.
약하게 정렬된 공격자 모델을 사용한 스푸핑은 유해한 텍스트에 워터마크를 각인시킬 수 있어 귀속성과 평판 보호를 저해한다.
워터마크 도용은 긴 텍스트 스크러빙 효과를 크게 높여 KGW2-SELFHASH에서 평균 성공률이 80%를 초과하며 기준선보다 훨씬 우수하다.
KGW2-SUM은 KGW2-SELFHASH보다 더 쉬운 스러빙을 보이며, KGW2-SELFHASH는 부분적으로 스푸핑-스크러빙 트레이드오프를 완화한다.
Unigram (UNIGRAM) 은 여전히 스푸핑에 취약한 반면, 다른 스키마는 스푸핑/스크러빙 강건성에 차이가 있다; 모든 결과에서 도용은 워터마크의 배포 리스크 인식을 낮춘다.
패러프레이징 기반 스크러빙은 도용 신호에 의해 강화되어 여러 패러프레이저(DIPPER, PEGASUS 등)에서 높은 효과를 달성한다.6

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.