QUICK REVIEW

[논문 리뷰] FakeAVCeleb: A Novel Audio-Video Multimodal Deepfake Dataset

Hasam Khalid, Shahroz Tariq|arXiv (Cornell University)|2021. 08. 11.

Digital Media Forensic Detection참고 문헌 60인용 수 23

한 줄 요약

이 논문은 최신의 얼굴 교환 및 음성 클로닝 기법을 사용해 생성한 실제감 있는 립싱크된 가짜 음성과 함께 가짜 영상이 포함된 새로운 오디오-비디오 다중모달 딥페이크 데이터셋인 FakeAVCeleb을 소개한다. 이 데이터셋은 다양한 연령대에 걸친 네 가지 민족 배경(백인, 동아시아계, 남아시아계, 아프리카계)의 유명인을 포함하여 인종 및 성별 편향을 완화함으로써, 다중모달 딥페이크 탐지기의 강력한 훈련 및 평가를 가능하게 한다.

ABSTRACT

While the significant advancements have made in the generation of deepfakes using deep learning technologies, its misuse is a well-known issue now. Deepfakes can cause severe security and privacy issues as they can be used to impersonate a person's identity in a video by replacing his/her face with another person's face. Recently, a new problem of generating synthesized human voice of a person is emerging, where AI-based deep learning models can synthesize any person's voice requiring just a few seconds of audio. With the emerging threat of impersonation attacks using deepfake audios and videos, a new generation of deepfake detectors is needed to focus on both video and audio collectively. To develop a competent deepfake detector, a large amount of high-quality data is typically required to capture real-world (or practical) scenarios. Existing deepfake datasets either contain deepfake videos or audios, which are racially biased as well. As a result, it is critical to develop a high-quality video and audio deepfake dataset that can be used to detect both audio and video deepfakes simultaneously. To fill this gap, we propose a novel Audio-Video Deepfake dataset, FakeAVCeleb, which contains not only deepfake videos but also respective synthesized lip-synced fake audios. We generate this dataset using the most popular deepfake generation methods. We selected real YouTube videos of celebrities with four ethnic backgrounds to develop a more realistic multimodal dataset that addresses racial bias, and further help develop multimodal deepfake detectors. We performed several experiments using state-of-the-art detection methods to evaluate our deepfake dataset and demonstrate the challenges and usefulness of our multimodal Audio-Video deepfake dataset.

연구 동기 및 목표

가짜 영상과 해당되는 가짜 음성까지 동시에 포함한 고품질의 다중모달 딥페이크 데이터셋이 부족한 문제를 해결한다.
네 가지 주요 민족 집단과 균형 잡힌 성별 표현을 포함하여 기존 딥페이크 데이터셋의 인종 및 성별 편향을 완화한다.
오디오 및 영상 조작을 동시에 탐지할 수 있는 능력을 갖춘 다중모달 딥페이크 탐지 시스템의 개발을 지원하기 위해 현실적이고 대규모의 데이터셋을 제공한다.
표준화된 벤치마크 데이터셋을 통해 단모달, 앙상블 기반, 다중모달 딥페이크 탐지 방법의 종합적 평가를 가능하게 한다.
연구 공동체가 공개적으로 접근 가능하고 잘 문서화된 데이터셋을 활용할 수 있도록 하되, 악용 방지를 위해 액세스 제어를 구현한다.

제안 방법

네 가지 민족 배경(Caucasian, East Asian, South Asian, African)에서 온 100명의 유명인에 대한 실존하는 유튜브 영상(균형 잡힌 성별 및 연령 분포)을 수집하였다.
최신의 딥페이크 생성 기법을 적용: 영상 조작을 위해 스타일 기반 GAN 기반 얼굴 교환, 음성 클로닝을 위해 신경망 기반 텍스트-음성 합성 모델(Tacotron2, FastSpeech2 등)을 사용하였다.
얼굴 랜드마크 추적 및 오디오-비디오 동기화 기법을 활용해 합성된 오디오와 영상 프레임 간의 립싱크 정확도를 확보하였다.
얼굴 인식 서비스인 Face++를 사용해 가장 유사한 얼굴 쌍을 식별하고 매칭함으로써 얼굴 교환의 현실감을 향상시켰다.
각 영상에 대해 딥페이크 영상과 동기화된 가짜 음성을 동시에 생성하였으며, 시간적 일치성과 시각-음성 일관성을 유지하였다.
악용 방지를 위해 제어된 액세스 시스템(데이터셋 요청 양식)을 통해 데이터셋을 공개하였으며, 합법적인 연구 접근을 보장하였다.

실험 결과

연구 질문

RQ1가짜 영상과 해당되는 립싱크된 가짜 음성을 포함한 다중모달 딥페이크 데이터셋은 단모달 데이터셋 대비 딥페이크 탐지 성능을 향상시킬 수 있는가?
RQ2훈련 데이터의 민족, 성별, 연령의 다양성이 딥페이크 탐지 모델의 일반화 능력과 공정성에 어떤 영향을 미치는가?
RQ3최신의 단모달, 앙상블 기반, 다중모달 딥페이크 탐지 방법들이 새로운 현실적이고 균형 잡힌 오디오-비디오 딥페이크 데이터셋에서 어떻게 성능을 발휘하는가?
RQ4시간적으로 동기화되고 시각적으로 신뢰할 수 있는 오디오-비디오 딥페이크를 탐지하는 데 있어 주요 과제는 무엇인가?
RQ5제안된 데이터셋은 향후 다중모달 딥페이크 탐지 및 일반화 연구를 위한 신뢰할 수 있는 벤치마크로 기능할 수 있는가?

주요 결과

FakeAVCeleb는 네 가지 민족 배경에 걸쳐 균형 잡힌 표현을 보이며, 100명의 유명인(남성 50%, 여성 50%)과 다양한 연령대를 포함하여 민족적 편향을 감소시켰다.
이 데이터셋은 최신의 딥페이크 생성 기법을 사용해 생성된 딥페이크 영상과 함께 립싱크된 합성 가짜 음성을 포함하고 있다.
실험 결과, 다중모달 탐지 방법이 단모달 기반 모델보다 더 뛰어난 성능을 보였으며, 오디오-비디오 동시 분석의 가치를 입증하였다.
11종의 최신 탐지 방법(단모달, 앙상블, 다중모달)을 사용해 데이터셋을 평가하였으며, 이는 데이터셋의 벤치마크 활용 가능성을 확인시켰다.
DFDC와 같은 기존 데이터셋과 달리, FakeAVCeleb는 명시적인 오디오 및 영상 레이블링을 제공하여 모odal별 탐지 성능 평가를 정밀하게 가능하게 한다.
이 데이터셋은 제어된 액세스 시스템(https://bit.ly/38prlVO)을 통해 공개되었으며, 악용 방지를 위해 심사 후 접근이 허가된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.