QUICK REVIEW

[論文レビュー] Investigating the Impact of Speech Enhancement on Audio Deepfake Detection in Noisy Environments

Anacin, Angela|arXiv (Cornell University)|Mar 16, 2026

Speech Recognition and Synthesis被引用数 0

ひとこと要約

本論文は、2つの音声強調手法（SEGANおよびMetricGAN+）がノイズ環境下で最先端の音声偽造検出器AASISTに与える影響を評価し、SEGANがEERを実質的に低減できる一方、MetricGAN+は知覚品質スコアが高いが偽造検出の誤りを最小化するとは限らないことを示します。

ABSTRACT

Logical Access (LA) attacks, also known as audio deepfake attacks, use Text-to-Speech (TTS) or Voice Conversion (VC) methods to generate spoofed speech data. This can represent a serious threat to Automatic Speaker Verification (ASV) systems, as intruders can use such attacks to bypass voice biometric security. In this study, we investigate the correlation between speech quality and the performance of audio spoofing detection systems (i.e., LA task). For that, the performance of two enhancement algorithms is evaluated based on two perceptual speech quality measures, namely Perceptual Evaluation of Speech Quality (PESQ) and Speech-to-Reverberation Modulation Ratio (SRMR), and in respect to their impact on the audio spoofing detection system. We adopted the LA dataset, provided in the ASVspoof 2019 Challenge, and corrupted its test set with different Signal-to-Noise Ratio (SNR) levels, while leaving the training data untouched. Enhancement was applied to attenuate the detrimental effects of noisy speech, and the performances of two models, Speech Enhancement Generative Adversarial Network (SEGAN) and Metric-Optimized Generative Adversarial Network Plus (MetricGAN+), were compared. Although we expect that speech quality will correlate well with speech applications' performance, it can also have as a side effect on downstream tasks if unwanted artifacts are introduced or relevant information is removed from the speech signal. Our results corroborate with this hypothesis, as we found that the enhancement algorithm leading to the highest speech quality scores, MetricGAN+, provided the lowest Equal Error Rate (EER) on the audio spoofing detection task, whereas the enhancement method with the lowest speech quality scores, SEGAN, led to the lowest EER, thus leading to better performance on the LA task.

研究の動機と目的

バックグラウンドノイズがLAタスクの偽装検出に与える影響をASVspoof 2019データで評価する。
2つの音声強調手法（SEGANとMetricGAN+）が下流のLA性能に与える影響を評価する。
知覚音声品質指標（PESQ, SRMR）と偽装検出性能との相関を分析する。
偽装対策ベンチマークとしてAASISTを用い、テストデータをさまざまなSNRレベルで破損させる。

提案手法

ノイズのあるテスト音声に対して、2つの深層ニューラルネットワークベースの音声強調モデル（SEGANとMetricGAN+）を適用する。
強調後の音声品質をPESQ（介入的）とSRMR（非介入的）で定量化する。
LA検出モデルとしてAASIST（RawGAT由来、グラフアテンションネットワーク）を採用する。
ASVspoof 2019のLAテストセットを CafeteriaノイズおよびBabbleノイズで0、5、10、15、20 dBのSNRレベルで破壊的に処理する；学習データはクリーンのまま。
EERとt-DCFで性能を評価する。
PESQ/SRMRとEER/t-DCFの間の相関を、強調後および生音声それぞれについて分析する。

実験結果

リサーチクエスチョン

RQ1SEGANとMetricGAN+の音声強調が、さまざまなノイズ条件下でLA偽装検出性能（EER/t-DCF）にどのように影響するか？
RQ2知覚品質指標（PESQ、SRMR）はLAタスクの性能と相関するか？また、強調法間での違いはどうか？

主な発見

Condition	Enhancement	EER (%)	t-DCF
Cafeteria	SEGAN	14.03	0.33
Cafeteria	SEGAN	11.91	0.29
Cafeteria	SEGAN	8.99	0.22
Cafeteria	SEGAN	6.58	0.15
Cafeteria	SEGAN	5.89	0.16
Cafeteria	MetricGAN+	40.40	0.90
Cafeteria	MetricGAN+	23.20	0.65
Cafeteria	MetricGAN+	13.47	0.42
Cafeteria	MetricGAN+	8.21	0.25
Cafeteria	MetricGAN+	5.47	0.17
Cafeteria	Noisy	42.58	0.99
Cafeteria	Noisy	36.83	0.94
Cafeteria	Noisy	12.24	0.35
Cafeteria	Noisy	7.92	0.24
Cafeteria	Noisy	2.80	0.08
Babble	SEGAN	15.21	0.40
Babble	SEGAN	10.41	0.26
Babble	SEGAN	7.56	0.20
Babble	SEGAN	6.16	0.17
Babble	SEGAN	5.70	0.16
Babble	MetricGAN+	42.80	0.94
Babble	MetricGAN+	24.17	0.67
Babble	MetricGAN+	11.23	0.34
Babble	MetricGAN+	6.29	0.34
Babble	Noisy	32.44	0.86
Babble	Noisy	28.37	0.75
Babble	Noisy	20.09	0.55
Babble	Noisy	8.75	0.25
Babble	Noisy	2.97	0.09

MetricGAN+はノイズレベルを問わずSEGANより高いPESQおよびSRMRスコアを達成する。
SEGANは複数のノイズレベルでMetricGAN+より有意に低いEERを示し、LAタスク性能が向上する。
CafeteriaおよびBabbleノイズ下で、0 dBから15 dBへのEER改善はSEGANの方がMetricGAN+より顕著である。
0 dBのとき、SEGANはCafeteriaでEERを42.58から14.03へ、Babbleで32.44から15.21へ低減させるのに対し、MetricGAN+は40.40と42.80へ低減。
15 dBでは、SEGANのEERはCafeteriaで6.58、Babbleで6.16へ改善；MetricGAN+はそれぞれ8.21と6.29へ改善。
ノイジー（未見、ベースライン）ではCafeteriaで42.58、Babbleで32.44のEERを示す。SEGANとMetricGAN+は特定のSNRでこれを低減するが、SNRが20 dBへ高くなると性能は収束する。
相関分析では、MetricGAN+はEER/t-DCFに対してPESQとより整合する（R2が最大で0.90および0.95）、一方SEGANはEER/t-DCFに対してSRMRとより整合する（R2が最大で0.97と0.96）。
SEGANはノイズ環境下でのLA検出の頑健性を向上させる。 discriminativeな偽装手掛かりの保持または回復が、単に知覚品質を最大化することよりも重要である可能性を示唆する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。