QUICK REVIEW

[논문 리뷰] Use of a Capsule Network to Detect Fake Images and Videos

Huy H. Nguyen, Junichi Yamagishi|arXiv (Cornell University)|2019. 10. 28.

Digital Media Forensic Detection참고 문헌 69인용 수 132

한 줄 요약

본 논문은 Capsule-Forensics를 제안한다. 이는 캡슐 네트워크 기반의 탐지기로, 다양한 위조 이미지/비디오 공격에 대해 일반화되며 CNN 기본 모델보다 훨씬 적은 파라미터로 경쟁력 있는 정확도를 달성하고, 캡슐 활성화의 시각화를 통해 분석을 제공한다.

ABSTRACT

The revolution in computer hardware, especially in graphics processing units and tensor processing units, has enabled significant advances in computer graphics and artificial intelligence algorithms. In addition to their many beneficial applications in daily life and business, computer-generated/manipulated images and videos can be used for malicious purposes that violate security systems, privacy, and social trust. The deepfake phenomenon and its variations enable a normal user to use his or her personal computer to easily create fake videos of anybody from a short real online video. Several countermeasures have been introduced to deal with attacks using such videos. However, most of them are targeted at certain domains and are ineffective when applied to other domains or new attacks. In this paper, we introduce a capsule network that can detect various kinds of attacks, from presentation attacks using printed images and replayed videos to attacks using fake videos created using deep learning. It uses many fewer parameters than traditional convolutional neural networks with similar performance. Moreover, we explain, for the first time ever in the literature, the theory behind the application of capsule networks to the forensics problem through detailed analysis and visualization.

연구 동기 및 목표

딥페이크, 얼굴 재연, CGI를 포함한 다양한 이미지·비디오 조작에 대해 일반적이고 경량화된 탐지기가 필요하다는 요구를 충족하고, 공격 유형 간에 전이되는 탐지기를 제시한다.
전통적인 CNN보다 적은 파라미터로 계층적 특징을 보존하고 포렌식 태스크의 성능을 향상시키기 위해 캡슐 네트워크를 활용한다.
포렌식 입력에서 캡슐 네트워크가 작동하는 방식에 대한 이론적 및 시각적 분석을 제공하여 포렌식 문제에 대한 적용 가능성을 정당화한다.]
method:[
이미지를 패치로 분할하거나 비디오에서 프레임을 추출하여 입력을 전처리하고, 필요 시 얼굴 영역을 자른 뒤 얼굴 중심 탐지를 수행한다.
캡슐 네트워크 전에 정규화된 프런트 엔드로 세 번째 max-pooling 층까지의 VGG-19 기반 특징 추출기를 사용한다.
여러 개의 프라이머리 캡슐(3개 또는 10개)로 구성된 Capsule-Forensics 구조를 구현하고, 각 프라이머리 캡슐은 2D conv, 통계 풀링 층, 그리고 1D conv로 이루어져 있으며, 두 개의 출력 캡슐(real and fake)로 연결된다.
학습 중에 라우팅 매트릭스의 임의 노이즈와 드롭아웃 두 가지 정규화를 적용하고, 학습 안정화를 위한 squash 활성화를 사용한다.
교차 엔트로피 손실과 Adam 옵티마이저로 학습하고, 프레임/패치 점수를 모아(비디오의 경우 프레임을 평균) 최종 판정을 산출한다.

제안 방법

전처리: 영상은 패치로, 비디오는 프레임으로 분리 후 입력으로 사용.
VGG-19 기반 특징 추출기를 캡슐 네트워크 이전의 프런트 엔드 규제용으로 사용한다(세 번째 max-pooling 층까지).

실험 결과

연구 질문

RQ1Capsule-Forensics가 CGI, 인쇄/재생 공격, 그리고 딥페이크/리엔액트먼트 비디오를 단일 프레임워크에서 탐지할 수 있는가?
RQ2캡슐 네트워크와 정규화 및 더 큰 입력을 사용할 때 파라미터 수를 줄이면서 공격 간 일반화 성능이 CNN 기본과 비교해 향상되는가?
RQ3학습된 캡슐이 조작된 영역과 어떤 관련이 있으며 동적 라우팅이 시간에 따라 캡슐 간 합의에 대해 무엇을 보여주는가?
RQ4다중 클래스 기능이 가능하며 특정 조작 유형(Deepfakes, Face2Face, FaceSwap)을 이진 real/fake이 아닌 다중 클래스 문제로 구분하는 것이 가능한가?

주요 결과

Capsule-Forensics가 300x300 입력과 향상된 설정에서 XceptionNet(≈20.8M)보다 훨씬 적은 파라미터로 비교적 우수한 이진 정확도(≈91.65%)와 견고한 EER(≈11.36%)를 달성한다.
라우팅 중에 임의 노이즈와 드롭아웃 정규화를 추가하면 입력 크기가 커지고 프라이머리 캡슐이 많아질 때 성능이 향상된다.
프라이머리 캡슐의 수를 10으로 늘리고 드롭아웃/노이즈를 적용하면 다중 클래스 성능이 강하게 나타나며 Capsule-Forensics + Dropout + Noise (300x300)의 다중 클래스 정확도 ≈91.22%, EER ≈10.26%에 도달한다.
비디오 프레임 집계는 이진 및 다중 클래스 정확도를 더 높이며, 예를 들어 Capsule-Forensics + Dropout + Noise (video)가 이진 정확도 93.11%와 다중 클래스 정확도 92.90%를 달성한다.
최적화를 적용한 Capsule-Forensics는 대략 다섯 배 정도의 파라미터 수로 유사한 이진 정확도에 접근하며 다중 클래스 설정에서 조사된 조작 유형별 성능이 보다 균형 잡혀 있다.
대규모 데이터에서의 완전 CGI 대 사진 구분의 경우, 구식과 신형 Capsule-Forensics 모두 기준선보다 우수하며 보고된 설정에서 대규모 CGI/PI 데이터셋에서 100% 정확도를 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.