QUICK REVIEW

[論文レビュー] The SpeakIn System for VoxCeleb Speaker Recognition Challange 2021

Miao Zhao, Yufeng Ma|arXiv (Cornell University)|Sep 5, 2021

Speech Recognition and Synthesis参考文献 25被引用数 36

ひとこと要約

SpeakIn チームは VoxSRC 2021 のシステムを、オフラインおよびオンラインデータ拡張、RepVGG および ResNet バックボーン、MQMHA プーリング、ドメインベースの大-margin ファインチューニング、およびバックエンドのキャリブレーションを用いて、VoxSRC 2021 トラック1とトラック2で最高性能を達成する。0.1034 minDCF と 1.846% EER。

ABSTRACT

This report describes our submission to the track 1 and track 2 of the VoxCeleb Speaker Recognition Challenge 2021 (VoxSRC 2021). Both track 1 and track 2 share the same speaker verification system, which only uses VoxCeleb2-dev as our training set. This report explores several parts, including data augmentation, network structures, domain-based large margin fine-tuning, and back-end refinement. Our system is a fusion of 9 models and achieves first place in these two tracks of VoxSRC 2021. The minDCF of our submission is 0.1034, and the corresponding EER is 1.8460%.

研究の動機と目的

VoxSRC 2021 のロバストな話者検証を、VoxCeleb2-dev データのみを用いて推進する。
トレーニングデータの多様性を拡張するためのデータ拡張戦略（オフラインおよびオンライン）の探索。
発話単位の埋め込みを改善する新規バックボーンとプーリングの開発。
大-margin ファインチューニングとスコアキャリブレーションを適用して検証性能の最大化。

提案手法

Tracks 1 および 2 のトレーニングセットとして VoxCeleb2-dev のみを使用。
3分割のスピード拡張とオフラインの Kaldi ベース拡張（RIRs, MUSAN）およびオンライン拡張チェーンを適用。
RepVGG および ResNet バックボーンを試行し、注意機構ベースのプーリング（MQMHA）と組み合わせる。
サブセンター AM/Arc 変種と Inter-TopK ペナルティを用いたロスの強化、およびドメインベースの大-margin ファインチューニング。
コサインスコアリングと長さ正規化を用いたバックエンドで AS-Norm および Quality Measure Functions (QMF) を組み込む。
最終的な VoxSRC 2021 提出結果を得るために9つのサブシステムを融合。

実験結果

リサーチクエスチョン

RQ1オフラインおよびオンラインのデータ拡張戦略が、VoxCeleb 派生データセットの話者検証性能にどう影響するか？
RQ2RepVGG バックボーンと MQMHA プーリング方式の埋め込み品質への影響は？
RQ3ドメインベースの大-margin ファインチューニングとバックエンドキャリブレーション（AS-Norm、QMF）で、VoxSRC 条件下の検証指標を最適に改善できるか？

主な発見

9モデルのフュージョンが VoxSRC 2021 Track 1 および Track 2 で1位を獲得。
VoxSRC 2021 評価での最終 minDCF は 0.1034、EER は 1.846%。
サブシステム分析は、より大きなモデル（例: RepVGG-B1, ResNet-101）が小さいベースラインを上回ることを示すが、非常に大きなモデルは VoxCeleb2-dev で過剰適合する可能性。
オンライン拡張はオフライン拡張を補完するが、オフラインモデルが最も強い性能を示した。
ドメインベースの大-margin ファインチューニングと AS-Norm/QMF キャリブレーションは、ベースラインと比較してEERおよび minDCF を著しく低減。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。