QUICK REVIEW

[논문 리뷰] Identifying and Mitigating Privacy Risks Stemming from Language Models: A Survey

Victoria Smith, Ali Shahin Shamsabadi|arXiv (Cornell University)|2023. 09. 27.

Topic Modeling인용 수 9

한 줄 요약

이 기술적 조사는 언어 모델의 프라이버시 취약점 표면을 매핑하고, 프리트레이닝, 파인튜닝, 압축 단계 전반에 걸친 기존 공격 및 완화책을 검토하며, 남아 있는 문제와 격차를 강조한다.

ABSTRACT

Large Language Models (LLMs) have shown greatly enhanced performance in recent years, attributed to increased size and extensive training data. This advancement has led to widespread interest and adoption across industries and the public. However, training data memorization in Machine Learning models scales with model size, particularly concerning for LLMs. Memorized text sequences have the potential to be directly leaked from LLMs, posing a serious threat to data privacy. Various techniques have been developed to attack LLMs and extract their training data. As these models continue to grow, this issue becomes increasingly critical. To help researchers and policymakers understand the state of knowledge around privacy attacks and mitigations, including where more work is needed, we present the first SoK on data privacy for LLMs. We (i) identify a taxonomy of salient dimensions where attacks differ on LLMs, (ii) systematize existing attacks, using our taxonomy of dimensions to highlight key trends, (iii) survey existing mitigation strategies, highlighting their strengths and limitations, and (iv) identify key gaps, demonstrating open problems and areas for concern.

연구 동기 및 목표

LM 단계와 아키텍처에 따라 프라이버시 공격이 어떻게 다른지 명확히 한다.
공격 목표, 공격자 지식, 공격 단계, 모델 유형의 차원 분류법을 이용해 기존 프라이버시 공격을 조사한다.
사전 처리, 학습 시, 사후 처리의 완화 전략을 검토하고 그 강점, 한계 및 격차를 식별한다.

제안 방법

LM 프라이버시 공격을 위한 주목할 만한 차원들의 분류법(공격 목표, 공격자 지식, 학습 단계, 모델 아키텍처)을 제안한다.
블랙박스 및 화이트박스 설정에서 멤버십 추론, 모델 역추정/속성 추론, 데이터 추출, 모델 추출 등 기존 공격을 조사하고 분류한다.
사전 처리, 학습 시점, 사후 처리 접근 방식으로 완화 전략을 합성하고 그 효과와 한계를 논의한다.

실험 결과

연구 질문

RQ1LM 프라이버시 공격이 차별화되는 핵심 차원은 무엇인가?
RQ2LM에 영향을 미치는 주요 공격 가족은 무엇이며, 접근 수준과 모델 단계에 따라 어떻게 달라지는가?
RQ3존재하는 프라이버시 보존 기술은 무엇이며, LM 프라이버시 위험 완화에 남아 있는 격차는 무엇인가?

주요 결과

모델 크기와 데이터 중복이 커질수록 암기 및 데이터 누출이 증가하며, 특히 최근에 관찰된 파인튜닝 데이터의 경우 그렇다.
멤버십 추론 공격은 지도 학습된LM들, 정적 임베딩, 사전 훈련된 모델, 파인튜닝된 모델, 압축된 대형언어모델 등에 블랙박스 및 화이트박스 설정에서 영향을 미치며, 데이터 중복 제거된 학습 데이터는 누출을 감소시킨다.
모델 역추정 및 속성 추론은 개인 학습 데이터를 재구성하거나 속성을 추론할 수 있으며, 화이트박스 및 연합학습 설정에서 중요한 위험을 제기한다; 특정 공격은 파인튜닝된 모델에서 문장이나 속성을 회복할 수 있다.
데이터 추출 공격은 블랙박스 설정에서도 말 그대로의 학습 데이터를 드러낼 수 있으며, 특히 사전 학습되고 파인튜닝된 LLM에서 그렇다.
모델 추출 공격은 API를 통해 공개된 모델을 위협하며, 기능을 복제하고 복제된 모델에 대한 화이트박스 공격을 통해 추가 누출을 가능하게 한다.
완화 전략으로는 데이터 위생 처리, 중복 제거, 차등 프라이버시, 지식 제거가 포함되며, 위생처리만으로는 충분하지 않고 다른 방법과 결합해야 한다는 점을 강조한다.
사전 학습, 파인튜닝, 압축 등 모든 학습 단계에 걸친 프라이버시 위험 평가의 격차와 강건하고 확장 가능한 프라이버시 보존 기술 개발의 미흡함이 남아 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.