Skip to main content
QUICK REVIEW

[論文レビュー] The SpeakIn System for VoxCeleb Speaker Recognition Challange 2021

Miao Zhao, Yufeng Ma|arXiv (Cornell University)|Sep 5, 2021
Speech Recognition and Synthesis参考文献 25被引用数 36
ひとこと要約

SpeakIn チームは VoxSRC 2021 のシステムを、オフラインおよびオンラインデータ拡張、RepVGG および ResNet バックボーン、MQMHA プーリング、ドメインベースの大-margin ファインチューニング、およびバックエンドのキャリブレーションを用いて、VoxSRC 2021 トラック1とトラック2で最高性能を達成する。0.1034 minDCF と 1.846% EER。

ABSTRACT

This report describes our submission to the track 1 and track 2 of the VoxCeleb Speaker Recognition Challenge 2021 (VoxSRC 2021). Both track 1 and track 2 share the same speaker verification system, which only uses VoxCeleb2-dev as our training set. This report explores several parts, including data augmentation, network structures, domain-based large margin fine-tuning, and back-end refinement. Our system is a fusion of 9 models and achieves first place in these two tracks of VoxSRC 2021. The minDCF of our submission is 0.1034, and the corresponding EER is 1.8460%.

研究の動機と目的

  • VoxSRC 2021 のロバストな話者検証を、VoxCeleb2-dev データのみを用いて推進する。
  • トレーニングデータの多様性を拡張するためのデータ拡張戦略(オフラインおよびオンライン)の探索。
  • 発話単位の埋め込みを改善する新規バックボーンとプーリングの開発。
  • 大-margin ファインチューニングとスコアキャリブレーションを適用して検証性能の最大化。

提案手法

  • Tracks 1 および 2 のトレーニングセットとして VoxCeleb2-dev のみを使用。
  • 3分割のスピード拡張とオフラインの Kaldi ベース拡張(RIRs, MUSAN)およびオンライン拡張チェーンを適用。
  • RepVGG および ResNet バックボーンを試行し、注意機構ベースのプーリング(MQMHA)と組み合わせる。
  • サブセンター AM/Arc 変種と Inter-TopK ペナルティを用いたロスの強化、およびドメインベースの大-margin ファインチューニング。
  • コサインスコアリングと長さ正規化を用いたバックエンドで AS-Norm および Quality Measure Functions (QMF) を組み込む。
  • 最終的な VoxSRC 2021 提出結果を得るために9つのサブシステムを融合。

実験結果

リサーチクエスチョン

  • RQ1オフラインおよびオンラインのデータ拡張戦略が、VoxCeleb 派生データセットの話者検証性能にどう影響するか?
  • RQ2RepVGG バックボーンと MQMHA プーリング方式の埋め込み品質への影響は?
  • RQ3ドメインベースの大-margin ファインチューニングとバックエンドキャリブレーション(AS-Norm、QMF)で、VoxSRC 条件下の検証指標を最適に改善できるか?

主な発見

  • 9モデルのフュージョンが VoxSRC 2021 Track 1 および Track 2 で1位を獲得。
  • VoxSRC 2021 評価での最終 minDCF は 0.1034、EER は 1.846%。
  • サブシステム分析は、より大きなモデル(例: RepVGG-B1, ResNet-101)が小さいベースラインを上回ることを示すが、非常に大きなモデルは VoxCeleb2-dev で過剰適合する可能性。
  • オンライン拡張はオフライン拡張を補完するが、オフラインモデルが最も強い性能を示した。
  • ドメインベースの大-margin ファインチューニングと AS-Norm/QMF キャリブレーションは、ベースラインと比較してEERおよび minDCF を著しく低減。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。