QUICK REVIEW

[논문 리뷰] Capsule-Forensics: Using Capsule Networks to Detect Forged Images and Videos

Huy H. Nguyen, Junichi Yamagishi|arXiv (Cornell University)|2018. 10. 26.

Digital Media Forensic Detection인용 수 48

한 줄 요약

Capsule-Forensics는 재생 공격을 포함하여 광범위한 위조 이미지와 비디오를 탐지하는 캡슐 네트워크 아키텍처를 사용하며, 여러 벤치마크에서 최첨단 또는 거의 완벽에 가까운 정확도를 달성합니다.

ABSTRACT

Recent advances in media generation techniques have made it easier for attackers to create forged images and videos. State-of-the-art methods enable the real-time creation of a forged version of a single video obtained from a social network. Although numerous methods have been developed for detecting forged images and videos, they are generally targeted at certain domains and quickly become obsolete as new kinds of attacks appear. The method introduced in this paper uses a capsule network to detect various kinds of spoofs, from replay attacks using printed images or recorded videos to computer-generated videos using deep convolutional neural networks. It extends the application of capsule networks beyond their original intention to the solving of inverse graphics problems.

연구 동기 및 목표

공격 유형이 발전함에 따라 여전히 효과적인 일반적이고 공격-무관한 위조 탐지기가 필요하다는 동기를 제시한다.
프레임 수준 및 비디오 수준 집계를 포함해 이미지와 비디오를 모두 처리할 수 있는 캡슐 네트워크 기반 탐지기를 개발한다.
역-그래픽에서 영감을 받은 캡슐을 활용하여 위조 신호에 대한 계층적 포즈 관계와 부품-전체의 일관성을 포착한다.

제안 방법

얼굴 정렬된 128x128 입력으로부터 VGG-19의 일부로 잠재 특징을 추출한다.
특징을 세 가지 주요 입력 캡슐과 두 가지 출력을 갖는 캡슐 네트워크로 전달한다(real vs fake).
일반화와 안정성을 향상시키기 위해 임의의 가우시안 잡음을 사용한 동적 라우팅을 적용한다.
각 차원에서 real/fake를 구분하기 위해 다차원 출력 캡슐 포뮬레이션을 갖춘 크로스 엔트로피 손실을 사용한다.
비디오에서 프레임 수준의 포스터리를 모아 비디오 수준의 의사결정을 한다.
추가된 학습 시 무작위 소음이 있는 경우와 없는 경우로 실험한다(Capsule-Forensics vs Capsule-Forensics-Noise).

실험 결과

연구 질문

RQ1캡슐 네트워크가 도메인 특화 탐지기보다 광범위한 위조 유형(재생, CGI, 재연)을 견고하게 감지할 수 있는가?
RQ2학습 중 무작위 노이즈를 도입하면 일반화 및 데이터셋 간 성능이 향상되는가?
RQ3재생, 얼굴 교환(face-swapping), 얼굴 재연(face reenactment), CGI 탐지 작업에서 Capsule-Forensics가 최신 방법과 어떻게 비교되는가?

주요 결과

Replay-Attack에서 Capsule-Forensics는 노이즈 없이 HTER 0.28%, 노이즈를 적용하면 0.00%를 달성한다.
프레임 수준 얼굴 스와핑 탐지(딥페이크 데이터셋)에서 Capsule-Forensics는 노이즈 없이 94.47% 정확도, 노이즈 적용 시 95.93%를 달성한다.
비디오 수준 얼굴 스와핑 탐지에서 노이즈 없이 97.69%, 노이즈 시 99.23%를 달성한다.
얼굴 재연(FaceForensics)에서 프레임 수준에서 압축 수준에 관계없이 최적 방법과 일치하거나 능가하며; 비디오 수준에서 노이즈를 적용한 Capsule-Forensics는 99.33%로 경쟁사 약 82–98%에 비해 우수합니다.
CGIs 대 PI에서 Capsule-Forensics는 99.72% 풀사이즈 정확도(96.75% 패치)를 달성하고 Capsule-Forensics-Noise는 100.00% 풀사이즈 정확도를 달성한다.
무작위 노이즈 학습은 일반적으로 다양한 작업 및 데이터셋에서 성능을 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.