Skip to main content
QUICK REVIEW

[論文レビュー] Audio Spoofing Verification using Deep Convolutional Neural Networks by Transfer Learning

Rahul T. P, P. R. Aravind|arXiv (Cornell University)|Aug 8, 2020
Speech Recognition and Synthesis参考文献 13被引用数 27
ひとこと要約

本論文は、Melスペクトログ램と微調整されたResNet-34アーキテクチャを用いた転移学習に基づく深層畳み込みニューラルネットワーク(DCNN)を提案し、音声スプーフィング攻撃を検出する。ASVspoof 2019ロジカルアクセス開発セットではEERが0.9056%、評価セットでは5.32%を達成し、ベースラインモデルを上回り、リプレイ、TTS、ボイスコンバージョンを含む多様なスプーフィングタイプにわたる強力な一般化性能を示した。

ABSTRACT

Automatic Speaker Verification systems are gaining popularity these days; spoofing attacks are of prime concern as they make these systems vulnerable. Some spoofing attacks like Replay attacks are easier to implement but are very hard to detect thus creating the need for suitable countermeasures. In this paper, we propose a speech classifier based on deep-convolutional neural network to detect spoofing attacks. Our proposed methodology uses acoustic time-frequency representation of power spectral densities on Mel frequency scale (Mel-spectrogram), via deep residual learning (an adaptation of ResNet-34 architecture). Using a single model system, we have achieved an equal error rate (EER) of 0.9056% on the development and 5.32% on the evaluation dataset of logical access scenario and an equal error rate (EER) of 5.87% on the development and 5.74% on the evaluation dataset of physical access scenario of ASVspoof 2019.

研究の動機と目的

  • リプレイ、テキスト・ツー・スピーチ、ボイスコンバージョンを含む多様なスプーフィング攻撃に一般化できる堅牢な音声スプーフィング検出システムの開発。
  • 大規模な画像分類で学習された事前学習済み深層ニューラルネットワークを活用することで、既存のベースラインを上回る検出性能を実現。
  • 自動発話者認証システムにおけるスプーフィング検出のための時間周波数表現としてMelスペクトログラムの有効性を評価。
  • 1つの統合モデルがロジカルアクセスと物理的アクセスの両状況において効果的にスプーフィングを検出できることを示すこと。

提案手法

  • 入力特徴としてMelスペクトログラムを用い、2048点のFFT(512点のホップサイズ)を用いて生の音声から抽出し、モデル互換性を確保するため224×224にリサイズ。
  • 大規模な画像分類で学習された特徴を活用するため、ASVspoof 2019データセット上で事前学習済みResNet-34アーキテクチャを微調整することで転移学習を適用。
  • Google ColabのTesla K80 GPUを用い、8エポック、バッチサイズ64、ADAM最適化子、学習率1e-6でモデルを学習。
  • 音声前処理はGoogleクラウド・プラットフォームで実施し、モデル学習はPyTorch上に構築されたfastaiライブラリを用いて実施。
  • Melスペクトログラム入力から学習された高レベル特徴に基づき、入力音声を本物(bona fide)またはスプーフィングと分類。
  • 等誤差率(EER)とt-DCFを用いて性能を評価し、誤認証率と誤拒否率のバランスを最適化するためのしきい値最適化を実施。

実験結果

リサーチクエスチョン

  • RQ1転移学習により学習された1つのディープラーニングモデルは、リプレイ、TTS、ボイスコンバージョンを含む複数のスプーフィング攻撃タイプに効果的に一般化できるか?
  • RQ2スプーフィング検出性能において、時間周波数表現としてのMelスペクトログラムは、他のフロントエンド特徴と比較してどのように優れているか?
  • RQ3事前学習済みResNet-34アーキテクチャの微調整は、学習から再び開始するか、単純なモデルを用いる場合と比較して、スプーフィング検出精度をどの程度向上させるか?
  • RQ4統合アーキテクチャのモデルは、ASVspoof 2019チャレンジにおけるロジカルアクセスと物理的アクセスの両状況で同等の性能を示すか?
  • RQ5開発セットに存在しない未学習のスプーフィングアルゴリズムに対しても、モデルの性能は一般化能力とどの程度相関しているか?

主な発見

  • 提案モデルは、ロジカルアクセスの開発セットでEER 0.9056%、評価セットで5.32%を達成し、ベースラインのCQCC-GMMおよびLFCC-GMMシステムを上回った。
  • 物理的アクセスの状況では、開発セットでEER 5.87%、評価セットで5.74%を達成し、アクセスタイプを問わず高い耐障害性を示した。
  • 物理的アクセス状況ではt-DCFとEERの相関係数が0.99686、ロジカルアクセス状況では0.96886と高く、性能指標の一貫性が確認された。
  • 主な性能指標および単一システム性能指標において、両ロジカルおよび物理的アクセス状況で上位3チームのうちの1つにランクインした。
  • ベースライン手法と比較して、ボイスコンバージョンベースのスプーフィング攻撃(例:A17)の検出性能が顕著に優れており、複雑なスプーフィング技術への一般化能力が強いことが示された。
  • 開発セットおよび評価セットにおいて優れた性能を示したが、ASVspoof 2019チャレンジで最高のシステム(ロジカルアクセスでEER 11.40%)に比べ、未学習のスプーフィングバリアントに対応する能力に改善の余地があることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。