QUICK REVIEW

[論文レビュー] ADD 2023: the Second Audio Deepfake Detection Challenge

Jiangyan Yi, Jianhua Tao|arXiv (Cornell University)|May 23, 2023

Music and Audio Processing被引用数 20

ひとこと要約

ADD 2023 は前回の課題を拡張し、3つのサブチャレンジ—音声偽造のゲーム、改変領域の局在化、ディープフェイクアルゴリズムの認識—を導入し、二値の real/fake 検出を超える評価を導入します。

ABSTRACT

Audio deepfake detection is an emerging topic in the artificial intelligence community. The second Audio Deepfake Detection Challenge (ADD 2023) aims to spur researchers around the world to build new innovative technologies that can further accelerate and foster research on detecting and analyzing deepfake speech utterances. Different from previous challenges (e.g. ADD 2022), ADD 2023 focuses on surpassing the constraints of binary real/fake classification, and actually localizing the manipulated intervals in a partially fake speech as well as pinpointing the source responsible for generating any fake audio. Furthermore, ADD 2023 includes more rounds of evaluation for the fake audio game sub-challenge. The ADD 2023 challenge includes three subchallenges: audio fake game (FG), manipulation region location (RL) and deepfake algorithm recognition (AR). This paper describes the datasets, evaluation metrics, and protocols. Some findings are also reported in audio deepfake detection tasks.

研究の動機と目的

2値分類を超えた深層偽音声の検出・分析手法の開発を促進する。
改変領域の局在化と生成アルゴリズムの識別を目的とした新しいサブチャレンジを導入する。
実世界の深層偽音声タスクをベンチマークするためのデータセット、プロトコル、評価指標を提供する。
ベースラインシステムを提供し、参加者の結果を分析して今後の研究を指針とする。

提案手法

3つのサブチャレンジにまたがるADD 2023データセットの構築と、訓練・開発・テストの分割を説明する。
DSR、WEER、文レベルの正解率、セグメントF1スコア、およびオープンセットARのマクロF1を含む評価指標を定義する。
多ラウンド評価とモデルベースラインの実験プロトコルと採点ルールを詳述する。
LFCC-GMM、LFCC-LCNN、および wav2vec2-LCNN の構成を用いた検出のベースラインを提示する。
対応する評価指標を伴う新しいタスクRLとARを概説する。

実験結果

リサーチクエスチョン

RQ1現場で、深層偽音声検出を2値の real/fake 分類以上に拡張して、改変領域の局在化（RL）と生成アルゴリズムの識別（AR）を行うことは可能か？
RQ2FG の2ラウンド評価で参加者はどのように評価され、生成と検出戦略にどのような影響を与えるか？
RQ3FG、RL、ARのサブチャレンジ全体でのベースラインとトップパフォーマンス手法は何か、どんなギャップが残るか？
RQ4未知の深偽ソースを含むARにおいて、オープンセット認識がアルゴリズム識別にどのような影響を与えるか？

主な発見

Track 1.1 FG-G は Round 2 で最高 DSR 49.60 を達成し、最終ランキングで 44.97% WDSR。
Track 1.2 FG-D は最良チームによって WEER を 12.45% まで低減し、平均 WEER は 49.94% 。
Track 2 RL は 67.13% のトップスコアと提出物全体の平均 48.82% を達成し、偽領域局在化の難しさを示している。
Track 3 AR は最高 F1 スコア 89.63%、平均は約 62.87% で、オープンセット認識が依然難しいことを示している。
Six baselines and multiple submissions across Tracks 1–3 provide a spectrum of approaches and highlight remaining gaps in localization and algorithm recognition.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。