Skip to main content
QUICK REVIEW

[논문 리뷰] ADD 2023: the Second Audio Deepfake Detection Challenge

Jiangyan Yi, Jianhua Tao|arXiv (Cornell University)|2023. 05. 23.
Music and Audio Processing인용 수 20
한 줄 요약

ADD 2023는 세 가지 하위 과제로 이전 도전을 확장하고 — 오디오 가짜 게임(audio fake game), 조작된 영역 위치(manipulation region location), 딥페이크 알고리즘 인식(deepfake algorithm recognition) — 이고 이진 real/fake 감지 이상의 평가를 도입하며, 로컬라이제이션과 소스 식별을 포함합니다.

ABSTRACT

Audio deepfake detection is an emerging topic in the artificial intelligence community. The second Audio Deepfake Detection Challenge (ADD 2023) aims to spur researchers around the world to build new innovative technologies that can further accelerate and foster research on detecting and analyzing deepfake speech utterances. Different from previous challenges (e.g. ADD 2022), ADD 2023 focuses on surpassing the constraints of binary real/fake classification, and actually localizing the manipulated intervals in a partially fake speech as well as pinpointing the source responsible for generating any fake audio. Furthermore, ADD 2023 includes more rounds of evaluation for the fake audio game sub-challenge. The ADD 2023 challenge includes three subchallenges: audio fake game (FG), manipulation region location (RL) and deepfake algorithm recognition (AR). This paper describes the datasets, evaluation metrics, and protocols. Some findings are also reported in audio deepfake detection tasks.

연구 동기 및 목표

  • 이진 분류를 넘어서 딥페이크 음성의 탐지 및 분석 방법 개발을 장려한다.
  • 조작된 영역을 로컬라이즈하고 생성 알고리즘을 식별하는 새로운 하위 챌린지를 도입한다.
  • 현실 세계의 딥페이크 오디오 작업을 벤치마크하기 위한 데이터셋, 프로토콜 및 평가 지표를 제공한다.
  • 기준 시스템을 제시하고 참가자 결과를 분석하여 향후 연구 방향을 제시한다.

제안 방법

  • 세 가지 하위 챌린지와 학습/개발/테스트 분할을 아우르는 ADD 2023 데이터셋 구성에 대해 기술한다.
  • 개방형 AR에 대한 DSR, WEER, 문장 정확도, 구간 F1-점수, 매크로 F1을 포함한 평가 지표를 정의한다.
  • 다중 라운드 평가 및 모델 기준선에 대한 실험 프로토콜과 채점 규칙을 자세히 설명한다.
  • LFCC-GMM, LFCC-LCNN, wav2vec2-LCNN 구성의 탐지 기준선을 제시한다.
  • 대응하는 평가 지표를 갖춘 새로운 작업 RL 및 AR를 개략한다.

실험 결과

연구 질문

  • RQ1현장(real-world)에서 딥페이크 오디오 탐지를 이진 real/fake 분류를 넘어 조작된 영역(RL)을 로컬라이즈하고 생성 알고리즘(AR)을 식별하는 방향으로 확장할 수 있는가?
  • RQ2FG에 대한 두 라운드 평가에서 참가자들의 성과는 어떠하며 그것이 생성 및 탐지 전략에 어떤 영향을 주는가?
  • RQ3FG, RL, AR 하위 챌린지 전반에서 기준선 및 최고 성능 접근 방식은 무엇이며 남은 격차는 무엇인가?
  • RQ4알 수 없는 딥페이크 소스가 있는 AR에서 open-set 인식이 알고리즘 식별에 어떤 영향을 미치는가?

주요 결과

  • 트랙 1.1 FG-G는 라운드 2에서 최고 DSR 49.60을 달성했고 최종 순위에서 44.97% WDSR를 기록했다.
  • 트랙 1.2 FG-D는 최상위 팀이 WEER를 12.45%까지 낮췄으며 평균 WEER는 49.94%이다.
  • 트랙 2 RL은 최고 점수 67.13%를 달성했고 제출작 전체 평균은 48.82%로 나타나 가짜 영역 로컬라이제이션의 난이도를 시사한다.
  • 트랙 3 AR은 최상의 F1-점수 89.63%를 달성했고 평균은 약 62.87%로 열린 집합(open-set) 인식이 여전히 어렵다는 것을 보여준다.
  • 트랙 1–3에 걸친 여섯 개의 기준선과 다수의 제출은 다양한 접근법의 스펙트럼을 제공하고 로컬라이제이션 및 알고리즘 인식에서 남아 있는 격차를 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.