[논문 리뷰] Practical Membership Inference Attacks against Fine-tuned Large Language Models via Self-prompt Calibration
요약: 이 논문은 미 기억화 기반의 멤버십 추론 공격인 SPV-MIA를 소개하며, 자체 프롬프트로 보정된 참조 모델을 사용해 확률적 변동성을 보정하고, baselines보다 더 높은 AUC를 달성합니다(리포트된 비교에서 약 23.6%–30%의 이득).
Membership Inference Attacks (MIA) aim to infer whether a target data record has been utilized for model training or not. Existing MIAs designed for large language models (LLMs) can be bifurcated into two types: reference-free and reference-based attacks. Although reference-based attacks appear promising performance by calibrating the probability measured on the target model with reference models, this illusion of privacy risk heavily depends on a reference dataset that closely resembles the training set. Both two types of attacks are predicated on the hypothesis that training records consistently maintain a higher probability of being sampled. However, this hypothesis heavily relies on the overfitting of target models, which will be mitigated by multiple regularization methods and the generalization of LLMs. Thus, these reasons lead to high false-positive rates of MIAs in practical scenarios. We propose a Membership Inference Attack based on Self-calibrated Probabilistic Variation (SPV-MIA). Specifically, we introduce a self-prompt approach, which constructs the dataset to fine-tune the reference model by prompting the target LLM itself. In this manner, the adversary can collect a dataset with a similar distribution from public APIs. Furthermore, we introduce probabilistic variation, a more reliable membership signal based on LLM memorization rather than overfitting, from which we rediscover the neighbour attack with theoretical grounding. Comprehensive evaluation conducted on three datasets and four exemplary LLMs shows that SPV-MIA raises the AUC of MIAs from 0.7 to a significantly high level of 0.9. Our code and dataset are available at: https://github.com/tsinghua-fib-lab/NeurIPS2024_SPV-MIA
연구 동기 및 목표
- Fine-tuned LLM 파이프라인에서 프라이버시 위험을 동기 부여하고 과적합 가정 외의 멤버십 위험을 정량화한다.
- 과적합이 아닌 memorization을 멤버십 신호로 활용하는 견고한 MIA를 개발한다.
- 대상 LLM 자체에서 보정용 참조 모델을 생성하는 자체 프롬프트 기법을 도입한다.
- SPV-MIA를 여러 LLM 및 데이터셋에 걸쳐 평가하여 실용적인 프라이버시 누출을 증명한다.
제안 방법
- 확률적 변동성을 지역 확률 최대값 주위의 memorization 기반 신호로 정의한다.
- 대상 텍스트의 의역 변형을 생성하는 마스크-필 모델(예: T5)을 사용하여 확률적 변동성을 추정한다.
- 대상 LLM에서 프롬프트를 통해 생성된 데이터로 학습된 자체 프롬프트 참조 모델로 memorization 신호를 보정한다.
- attk를 A_our(x, θ, φ) = 1[ ˜p_θ(x) - ˜p_φ(x) ˜ ≤ τ ] 형태로 구성하되, ˜p는 대상 및 참조 모델의 확률적 변동성 추정치를 나타낸다.
- 두 단계 워크플로우를 도입한다: 의역 기반 인근 샘플링으로 p̃_θ를 평가하고, 자체 프롬프트를 통해 보정하기 위해 φ를 미세조정한다.
실험 결과
연구 질문
- RQ1SPV-MIA가 실제적인 memorization 주도 LLM에서 최첨단 MIAs를 능가하는가?
- RQ2자체 프롬프트 참조 모델의 품질이 공격 성능에 어떤 영향을 미치는가?
- RQ3다양한 미세조정 기법이 SPV-MIA에 미치는 영향은 무엇인가?
- RQ4프라이버시 방어가 SPV-MIA 공격에 견딜 수 있는가?
주요 결과
- SPV-MIA는 네 가지 LLM과 세 가지 데이터셋에서 일관되게 baselines를 능가하며 평균 AUC가 92.4%이다.
- 가장 강력한 baseline(LiRA-Candidate)과 비교했을 때, SPV-MIA가 보고된 비교에서 AUC를 약 30% 향상시킨다.
- 초록에서 SPV-MIA가 baselines에 비해 전반적으로 약 23.6%의 AUC 향상을 보고한다.
- 자체 프롬프트 참조 모델은 학습 분포의 일치하는 참조 데이터 세트에 접근하지 않고도 효과적으로 보정될 수 있다.
- 별도 연구에서 SPV-MIA 모듈(확률적 변동성 평가 및 자체 프롬프트 보정)의 공격 효과에 대한 기여를 확인한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.