QUICK REVIEW

[論文レビュー] VoxSRC 2020: The Second VoxCeleb Speaker Recognition Challenge

Arsha Nagrani, Joon Son Chung|arXiv (Cornell University)|Dec 12, 2020

Speech Recognition and Synthesis参考文献 50被引用数 65

ひとこと要約

本論文は、二つ目の VoxCeleb 声紋認識チャレンジ VoxSRC2020 を説明しており、タスク（verification and diarisation）、新規データセット（VoxConverse, VoxMovies）、評価指標、ベースライン、提出システム、結果、およびワークショップの成果をカバーしている。

ABSTRACT

We held the second installment of the VoxCeleb Speaker Recognition Challenge in conjunction with Interspeech 2020. The goal of this challenge was to assess how well current speaker recognition technology is able to diarise and recognize speakers in unconstrained or `in the wild' data. It consisted of: (i) a publicly available speaker recognition and diarisation dataset from YouTube videos together with ground truth annotation and standardised evaluation software; and (ii) a virtual public challenge and workshop held at Interspeech 2020. This paper outlines the challenge, and describes the baselines, methods used, and results. We conclude with a discussion of the progress over the first installment of the challenge.

研究の動機と目的

制約のない実世界条件（“in the wild”）における話者認識の推進と評価。
話者検証とダイアリゼーションの両方の進展を促すための公開データ、評価ツール、および公開チャレンジを提供。
EER を超えた評価拡張のための新しいタスクと指標を導入し、ダイアリゼーション指標を含む。
VoxSRC2019 以降の進捗をベンチマークするためのベースラインと分析を提供。

提案手法

二つのタスク: 話者検証（4つのトラックを含む）と話者ダイアリゼーション（Track 4）。
公開データセット: VoxCeleb 変種、外部ドメイン検証用の VoxMovies、ダイアリゼーション用の VoxConverse。
トレーニングで視覚データ（顔）を使用する新しい自己教師型トラック（Track 3）。
指標: verification に対する minDCF と EER、diarisation に対する DER と JER。
ベースライン: メルスペクトログラムを用いた監視型 Fast ResNet-34、自己教師型対比学習ベースライン、DIHARD ベースのダイアリゼーションベースライン。
CodaLab を使った時間制限付き提出と、ワークショップ（Interspeech 2020）による評価。

実験結果

リサーチクエスチョン

RQ1最先端の話者検証およびダイアリゼーションシステムは、制約のない状況、ノイズ、クロスドメイン条件下でどの程度性能を発揮するか？
RQ2視覚データの有無を問わず、自己教師型アプローチは話者検証において監視付きの性能に近づくか？
RQ3外部ドメインデータ（映画素材）の検証およびダイアリゼーション性能への影響はどうか？
RQ4現実的なビデオデータにおける多話者・重なる会話をダイアリゼーションシステムはどのように処理するか？

主な発見

各トラックの話者検証のトップ手法は、データ増強と大マージン損失（AAM-softmax）を伴うECAPA-TDNNおよびResNet34系に基づいていた。
自己教師型トラックでは、完全監視付きトラックを下回る性能で、テストセットでのEERは約7.21%、minDCFは約0.877だった。
VoxMovies のアウト・オブ・ドメインデータはタスク難易度を大幅に上げ、VoxCeleb のみデータよりも挑戦的なテストセットを示している。
ダイアリゼーション（Track 4）では、優勝はDER 6.23%、JER 21.52%を達成。ConformerベースのCSS、Res2Net embeddings、AM-Softmax、DOVER fusionを使用；二位はDER 8.12%、JER 18.35%でVB-HMM後処理を使用。
検証トラック全体で、優勝者は2019年の受賞者を大幅に上回っており、1年で大きな進歩を強調している（例: Track 1: 0.177 minDCF、3.73% EER は優勝者）。
VoxSRC2020 のテストセットは VoxSRC2019 よりも難しく、2019年の優勝者を2020年のテストセットで再実行した際の性能差から示されている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。