QUICK REVIEW

[논문 리뷰] Scalable Extraction of Training Data from (Production) Language Models

Milad Nasr, Nicholas Carlini|arXiv (Cornell University)|2023. 11. 28.

Adversarial Robustness in Machine Learning인용 수 79

한 줄 요약

본 논문은 대형 언어 모델에서 추출 가능한 기억을 분석하고, 공개적, 반개방적, 그리고 생산형(프로덕션) 모델에서 상당한 규모의 학습 데이터가 추출될 수 있음을 보여주며, ChatGPT에 대한 데이터 누출을 늘리는 새로운 발산(divergence) 공격을 제시합니다.

ABSTRACT

This paper studies extractable memorization: training data that an adversary can efficiently extract by querying a machine learning model without prior knowledge of the training dataset. We show an adversary can extract gigabytes of training data from open-source language models like Pythia or GPT-Neo, semi-open models like LLaMA or Falcon, and closed models like ChatGPT. Existing techniques from the literature suffice to attack unaligned models; in order to attack the aligned ChatGPT, we develop a new divergence attack that causes the model to diverge from its chatbot-style generations and emit training data at a rate 150x higher than when behaving properly. Our methods show practical attacks can recover far more data than previously thought, and reveal that current alignment techniques do not eliminate memorization.

연구 동기 및 목표

개방형, 반개방형 및 생산형 언어 모델 전반에 걸친 추출 가능한 기억의 양을 정량화한다.
수조 토큰에 대한 기억화 데이터를 탐지하기 위한 확장 가능한 방법론을 개발한다.
학습 정렬(alignment) 기법이 기억화에 미치는 영향을 평가한다.
반폐쇄 모델에서 기억화된 데이터에 대한 실제 정답 검증 방법을 제공한다.
배포된 LLM의 개인정보 보호 및 데이터 보안에 대한 시사점을 제시한다.

제안 방법

추출 가능한 기억을 모델이 학습 데이터의 훈련 데이터를 출력하게 하는 그대로의 프롬프트를 의미하는 것으로 정의한다.
open 모델의 경우 생성된 시퀀스가 학습 데이터에 포함되어 있는지 효율적으로 검증하기 위해 접미사 배열 기반 조회를 사용한다.
모델당 10억 토큰을 생성하고 기억화된 출력 및 고유 50-토큰 시퀀스를 측정한다.
Good-Turing 추정과 기억화 출력의 계급 기반 시각화를 통해 총 기억화를 외삽한다.
semi-closed 모델의 경우 공개 코퍼스(public corpora)에서 AuxDataset(~9 TB)을 구축하고 32개의 접미사 배열 샤드를 사용해 이를 대상으로 출력을 테스트한다.
ChatGPT의 경우 정렬(alignment)을 우회하고 기본 모델과 유사한 생성을 유도하기 위한 프롬프트 발산(divergence) 전략을 개발한다.

실험 결과

연구 질문

RQ1open, semi-open, 및 production LLM으로부터 verbatim 형태의 추출 가능한 데이터는 얼마나 있는가?
RQ2모델 규모, 학습 기간 및 정렬이 기억화 및 추출 가능성에 어떤 영향을 주는가?
RQ3기존의 추출 방법을 수조 토큰과 대형 모델군으로 확장할 수 있는가?
RQ4공개적으로 접근 가능한 학습 데이터가 없을 때 기억화를 강건하게 검증할 전략은 무엇인가?
RQ5ChatGPT와 같은 배포된 대화형 모델의 프라이버시 측면에서의 의미는 무엇인가?

주요 결과

개방형(Open) 모델은 0.1%에서 1%의 기억된 토큰을 보이고, 모델별로 365k–2.9M 개의 고유한 50-토큰 기억 시퀀스를 보유한다.
총 기억화 추정은 더 많은 생성으로 커지며, Good-Turing 외삽은 더 큰 모델에서 상당한 기억화를 시사한다.
GPT-Neo 6B, Pythia 6.9B 및 유사 규모에서 더 작은 모델보다 더 높은 고유 기억 시퀀스 수 및 더 높은 외삽 카운트를 보인다.
반폐쇄 모델(예: LLaMA, Falcon, GPT-2)은 비미소한(memory) 기억화를 보이며, 50-그램 기억 시퀀스의 외삽은 모델과 크기에 따라 약 38k–16.7M까지 다양하다.
ChatGPT(gpt-3.5-turbo)는 발산 프롬프트 공격에 취약하여 데이터 누출 가능성이 있으며, 자동화된 웹 마이닝을 통한 추출 가능한 기억화는 GPT-3.5-instruct의 경우 1,789,254 개의 외삽된 50-그램에 해당하여 정렬이 기억화를 완전히 완화하지 못함을 시사한다.
본 연구는 발견 가능한 기억화와 추출 가능한 기억화 간의 큰 차이를 강조하며, 상당한 보이지 않는 기억 데이터가 존재한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.