[논문 리뷰] Security and Privacy on Generative Data in AIGC: A Survey
이 설문은 정보보호 속성—개인정보 보호, 제어가능성, 진정성, 컴플라이언스—에서 AIGC의 생성 데이터의 보안과 개인정보를 분석하고 최신 대책을 검토한다.
The advent of artificial intelligence-generated content (AIGC) represents a pivotal moment in the evolution of information technology. With AIGC, it can be effortless to generate high-quality data that is challenging for the public to distinguish. Nevertheless, the proliferation of generative data across cyberspace brings security and privacy issues, including privacy leakages of individuals and media forgery for fraudulent purposes. Consequently, both academia and industry begin to emphasize the trustworthiness of generative data, successively providing a series of countermeasures for security and privacy. In this survey, we systematically review the security and privacy on generative data in AIGC, particularly for the first time analyzing them from the perspective of information security properties. Specifically, we reveal the successful experiences of state-of-the-art countermeasures in terms of the foundational properties of privacy, controllability, authenticity, and compliance, respectively. Finally, we show some representative benchmarks, present a statistical analysis, and summarize the potential exploration directions from each of theses properties.
연구 동기 및 목표
- 생성 데이터가 실제 데이터 개인정보에 어떤 영향을 미치는지 평가하고 AIGC에서의 개인정보 위협을 식별한다.
- 생성 데이터의 남용 및 저작권 문제를 예방하기 위한 제어 가능성 메커니즘을 검토한다.
- 생성 데이터의 진정성 평가 및 탐지/출처 추적 방법을 평가한다.
- 규제/컴플라이언스 요구사항을 분석하고 신뢰할 수 있는 생성 데이터에 대한 지침을 제안한다.
제안 방법
- 정보보안 속성(개인정보 보호, 제어가능성, 진정성, 컴플라이언스)에 따라 생성 데이터의 보안/개인정보 요구사항을 분류한다.
- 각 속성에 대한 최신 대응책을 검토하고 합성한다(예: 기억화 방지, 차등 개인정보 보호, 워터마킹, 접근 제어, 추적성).
- 기존 설문조사를 비교하고 AIGC 전체가 아니라 생성 데이터에 초점을 맞춰 격차를 강조한다.
- 신뢰 가능한 생성 데이터에 대한 남아 있는 도전과제와 향후 방향을 요약한다.
실험 결과
연구 질문
- RQ1생성 모델 학습에 사용되는 실제 데이터의 개인정보 위험과 보호 장치는 무엇인가(생성 데이터의 개인정보 보호 대 AIGC를 위한 개인정보 보호)?
- RQ2생성 데이터의 오용을 사전에 방지하기 위해 제어 가능성(접근 제어 및 추적성)을 어떻게 달성할 수 있는가?
- RQ3생성 데이터의 진정성을 보장하기 위한 방법(탐지 및 출처 추적)과 이들의 효과는 무엇인가?
- RQ4독성 아님 및 사실성 등을 포함하여 생성 데이터에 적용되는 규제 및 컴플라이언스 요구사항은 무엇인가?
- RQ5AIGC에서 생성 데이터를 확보하고 보호하는 데 남아 있는 도전과제와 향후 방향은 무엇인가?
주요 결과
- 개인정보 위협에는 대형 모델의 학습 데이터 암기 및 출력에서의 학습 데이터 재현이 포함된다.
- 차등 프라이버시, 중복 제거 및 암기-거부 기술은 프라이버시 위험을 완화하지만 유용성에 영향을 미칠 수 있다.
- 프라이버시를 위한 AIGC는 실제 데이터 프라이버시를 보호하기 위해 가상 콘텐츠를 사용하며, 확산 모델은 프라이버시 보호를 위한 강한 생성 능력을 제공한다.
- 제어 가능성 전략에는 섭동을 통한 접근 제어와 워터마킹을 통한 강건한 추적성(모델-특정 및 데이터-특정)이 포함된다.
- 워터마킹은 저작권 보호, 진정성 확인 및 생성 파이프라인 전반의 콘텐츠 추적성을 가능하게 한다.
- 컴플라이언스 문제는 생성 데이터의 무독성 및 사실성에 중점을 둔다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.