[논문 리뷰] Stealing Part of a Production Language Model
저자들은 블랙박스 모델 스틸링 공격으로 트랜스포머 언어 모델의 임베딩 프로젝션 레이어를 복구하고 숨겨진 차원과 최종 프로젝션 행렬을 낮은 오차로 드러내며, 합리적인 비용으로 OpenAI 모델에서의 실용성을 시연한다.
We introduce the first model-stealing attack that extracts precise, nontrivial information from black-box production language models like OpenAI's ChatGPT or Google's PaLM-2. Specifically, our attack recovers the embedding projection layer (up to symmetries) of a transformer model, given typical API access. For under \$20 USD, our attack extracts the entire projection matrix of OpenAI's Ada and Babbage language models. We thereby confirm, for the first time, that these black-box models have a hidden dimension of 1024 and 2048, respectively. We also recover the exact hidden dimension size of the gpt-3.5-turbo model, and estimate it would cost under $2,000 in queries to recover the entire projection matrix. We conclude with potential defenses and mitigations, and discuss the implications of possible future work that could extend our attack.
연구 동기 및 목표
- 블랙박스 API가 트랜스포머 언어 모델의 임베딩 프로젝션 레이어를 누설할 수 있음을 시연한다.
- 여러 생산 모델의 숨겨진 차원이 API 질의를 통해 복구될 수 있음을 보인다.
- 로그잇-벡터 출력으로부터 최종 임베딩 프로젝션 행렬을 (대칭으로) 재구성한다.
- 모델 구성요소를 복구하는 데 필요한 질의 수와 비용(달러 단위)을 실질적으로 정량화한다.
- 누출을 줄이고 향후 방향을 제시하기 위한 방어책과 완화책을 논의한다.
제안 방법
- 톱다운 방식으로 은닉 상태에서 로짓으로의 최종 프로젝션의 저랭크 구조를 활용하여 최종 임베딩 프로젝션 레이어를 추출한다.
- 랜덤 접두사 프롬프트를 사용하고 로짓 벡터를 수집하여 데이터 행렬 Q = W · H를 구성한 다음, 랭크 분석을 통해 히든 차원 h를 식별하기 위해 SVD를 적용한다.
- SVD 요인(U, Σ)을 분석하고 대칭(G)에 의해 정렬되도록 하여 h×h 변환까지 최종 프로젝션 행렬 W를 복구한다.
- 특정 토큰에 바이어스를 추가하고 상위 k 로짓/로그확률을 관찰할 수 있는 로짓 바이어스 API로 공격을 일반화한다; 한 번의 질의로 다수의 로짓을 복구하기 위한 비용 최적화 버전도 개발한다.
- 실용적인 API 제약 하에서 바이어스를 다루고 전체 로짓 벡터를 복구하는 전략을 포함하여, top-k 및 top-1 설정이 있는 로짓 바이어스 API에 방법을 확장한다.
실험 결과
연구 질문
- RQ1블랙박스 API 접근을 통해 생산형 LLM에 대해 어떤 정도의 정보 누출이 파악될 수 있는가?
- RQ2공격자가 로짓 출력으로부터 트랜스포머 언어 모델의 숨겨진 차원과 최종 임베딩 프로젝션 행렬을 복구할 수 있는가?
- RQ3최종 프로젝션 행렬 W를 (대칭에 의해) 얼마나 정확하게 재구성할 수 있으며, 이를 위해 필요한 질의 수와 비용(달러)은 어느 정도인가?
- RQ4실용적인 API 제약(상위-k 로짓 바이어스, 로짓 바이어스, 로그확률 접근)이 전체 또는 부분적인 모델 추출의 실현 가능성에 어떤 영향을 미치는가?
- RQ5API의 활용성을 보존하면서 누출을 줄일 수 있는 방어책과 완화책은 무엇인가?
주요 결과
- 공격은 여러 모델에 대해 임베딩 프로젝션 레이어를 복구하고 대칭에 의한 차이를 제외하면 평균 제곱 오차가 10−4 수준이다.
- 숨겨진 차원 h는 여러 모델에서 정확히 복구된다(예: OpenAI ada의 경우 1024, OpenAI babbage의 경우 2048).
- 최종 프로젝션 행렬 W의 전체 추출은 h×h 변환까지 가능하며, 테스트된 모델에서 RMS 오차는 대략 10−4에서 10−3 수준이다.
- 공격은 오픈 소스 모델(GPT-2, Pythia, LLaMA)과 생산 모델(OpenAI ada, babbage, gpt-3.5-turbo 계열) 모두에서 작동하며, 실용적인 질의 비용을 보인다.
- 선정된 모델에 대해 최대 2×10^6 미만에서 4×10^7 미만의 질의로 전체 레이어 추출이 시연되었고 비용은 대략 $1에서 $2000 사이였다.
- 결과는 생산 API에서의 방어책을 촉발했으며, 로짓 바이어스 기반 누출 및 결합 로짓-바이어스/로그확률 접근에 대한 방어책이 포함된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.