Skip to main content
QUICK REVIEW

[논문 리뷰] Not My Deepfake: Towards Plausible Deniability for Machine-Generated Media

Baiwu Zhang, Jin Zhou|arXiv (Cornell University)|2020. 08. 20.
Generative Adversarial Networks and Image Synthesis인용 수 10
한 줄 요약

이 논문은 특히 딥페이크 조작의 맥락에서 생성형 AI 모델 개발자에게 신뢰할 수 있는 부인 가능성을 제공하기 위해 双중 프레임워크 접근법을 제안한다. 확률적 엔트로피 할당(97.62% 정확도 달성)과 암호화 로깅을 활용하여 악성 미디어 생성 혐의에 대해 무죄를 입증할 수 있도록 하며, 위조된 소속 관계에 대한 투명하고 검증 가능한 방어 수단을 제공한다.

ABSTRACT

Progress in generative modelling, especially generative adversarial networks, have made it possible to efficiently synthesize and alter media at scale. Malicious individuals now rely on these machine-generated media, or deepfakes, to manipulate social discourse. In order to ensure media authenticity, existing research is focused on deepfake detection. Yet, the very nature of frameworks used for generative modeling suggests that progress towards detecting deepfakes will enable more realistic deepfake generation. Therefore, it comes at no surprise that developers of generative models are under the scrutiny of stakeholders dealing with misinformation campaigns. As such, there is a clear need to develop tools that ensure the transparent use of generative modeling, while minimizing the harm caused by malicious applications. We propose a framework to provide developers of generative models with plausible deniability. We introduce two techniques to provide evidence that a model developer did not produce media that they are being accused of. The first optimizes over the source of entropy of each generative model to probabilistically attribute a deepfake to one of the models. The second involves cryptography to maintain a tamper-proof and publicly-broadcasted record of all legitimate uses of the model. We evaluate our approaches on the seminal example of face synthesis, demonstrating that our first approach achieves 97.62% attribution accuracy, and is less sensitive to perturbations and adversarial examples. In cases where a machine learning approach is unable to provide plausible deniability, we find that involving cryptography as done in our second approach is required. We also discuss the ethical implications of our work, and highlight that a more meaningful legislative framework is required for a more transparent and ethical use of generative modeling.

연구 동기 및 목표

  • 고도로 발전한 생성 모델을 통해 생성되는 악성 딥페이크의 증가하는 위협에 대응하기 위해.
  • 가짜로 조작된 미디어를 생성했다는 혐의에 대비해 개발자가 검증 가능한 도구를 확보할 수 있도록 하기 위해.
  • 신용할 수 있는 부인 가능성을 제공함으로써 악성 행위자가 생성 모델을 악용할 유인을 줄이기 위해.
  • 합법적인 모델 사용을 추적하기 위한 투명하고 변조 방지 기능이 있는 메커니즘을 확립하기 위해.
  • 책임감 있는 생성형 AI 배포를 위한 윤리적 및 입법적 프레임워크를 안내하기 위해.

제안 방법

  • 첫 번째 기법은 생성 모델 내부의 엔트로피 원천에 대한 확률적 모델링을 활용하여, 높은 신뢰도로 특정 모델이 생성한 딥페이크를 할당한다.
  • 두 번째 기법은 모든 합법적 모델 출력물의 공개 방송형, 변조 방지 로그를 생성하는 암호화를 활용한다.
  • 엔트로피 기반 할당은 변형 및 적대적 예제에 대해 강건하도록 최적화되어 있다.
  • 암호화 로깅은 사용 기록을 조작하려는 어떤 尝시도라도 제3자에 의해 감지되고 검증 가능하도록 보장한다.
  • 실제 적용 가능성을 입증하기 위해 이 프레임워크는 얼굴 합성, 딥페이크의 대표적 응용 분야에서 평가되었다.
  • 이 시스템은 기계 학습과 암호학을 융합하여 모델 개발자에게 방어 전략의 다층적 접근을 제공한다.

실험 결과

연구 질문

  • RQ1확률적 할당 시스템은 주어진 딥페이크를 생성한 생성 모델을 신뢰성 있게 식별할 수 있는가?
  • RQ2입력의 변형 및 적대적 예제에 대해 할당 시스템은 얼마나 강건한가?
  • RQ3기계 학습 기반의 부인 가능성이 실패하는 경우, 암호화 로깅 접근법이 합리적인 부인 가능성을 위한 필수 보조 수단이 될 수 있는가?
  • RQ4이러한 부인 가능 프레임워크의 정확도, 강건성, 실용적 구현 간의 상호 갈등은 무엇인가?
  • RQ5이러한 시스템은 생성형 AI 모델의 윤리적이고 법적으로 타당한 사용을 어떻게 지원할 수 있는가?

주요 결과

  • 엔트로피 기반 할당 방법은 딥페이크의 소스 모델을 식별하는 데 97.62%의 정확도를 달성했다.
  • 표준 검출 모델에 비해 변형 및 적대적 예제에 대한 민감도가 감소한 것으로 나타났다.
  • 기계 학습 기반 할당이 실패하는 경우, 암호화 로깅 접근법이 신뢰할 수 있는 부인 가능성을 위한 필수 보조 수단이 된다.
  • 암호화 통합으로 사용 기록이 변조될 수 없으며, 합법적 사용의 공개 검증이 가능해졌다.
  • 순수 기계 학습 기반 검출의 한계를 부각시키며, 하이브리드 기술적 및 법적 솔루션의 필요성을 강조한다.
  • 생성형 AI 사용을 규율하기 위한 더 강력한 입법 및 윤리적 프레임워크의 필요성을 부각시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.