QUICK REVIEW

[論文レビュー] BUT System Description to VoxCeleb Speaker Recognition Challenge 2019

Hossein Zeinali, Shuai Wang|arXiv (Cornell University)|Oct 16, 2019

Speech Recognition and Synthesis参考文献 12被引用数 79

ひとこと要約

4つの CNN ベースのシステム（x-vector および ResNet34 系列）の融合を用いた VoxSRC 2019 の概要。Fixed 条件と Open 条件の提出でそれぞれ 1.42% と 1.26% の EER を達成。

ABSTRACT

In this report, we describe the submission of Brno University of Technology (BUT) team to the VoxCeleb Speaker Recognition Challenge (VoxSRC) 2019. We also provide a brief analysis of different systems on VoxCeleb-1 test sets. Submitted systems for both Fixed and Open conditions are a fusion of 4 Convolutional Neural Network (CNN) topologies. The first and second networks have ResNet34 topology and use two-dimensional CNNs. The last two networks are one-dimensional CNN and are based on the x-vector extraction topology. Some of the networks are fine-tuned using additive margin angular softmax. Kaldi FBanks and Kaldi PLPs were used as features. The difference between Fixed and Open systems lies in the used training data and fusion strategy. The best systems for Fixed and Open conditions achieved 1.42% and 1.26% ERR on the challenge evaluation set respectively.

研究の動機と目的

VoxSRC 2019 Fixed および Open トラックの BOTH Submission を Brno University of Technology (BUT) が披露する。
4 つの CNN ベース埋め込みシステム（x-vector および ResNet34 系の変種）を異なる学習データ条件で比較する。
バックエンド、フュージョン戦略、キャリブレーションを分析し、VoxCeleb テストセットで競争力のある EER を達成する。

提案手法

4 つの CNN ベース埋め込みネットワークを使用（PLDA バックエンドを有する x-vector TDNN の 2 つの変種、コサインバックエンドを有する 2 つの ResNet34 変種）。
選択的なネットワークを微調整するための Additive Angular Margin 方式のロスを用いた実験。
Fixed 条件では VoxCeleb-2 開発セットと大規模なデータ拡張（RIR、Musan）で訓練；Open 条件では VoxCeleb-1/2、LibriSpeech、DeepMine を含むデータを拡大。
Gaussian PLDA とコサインスコアリングを適応的スコア正規化と共に適用；Fixed（加重平均）および Open（ロジスティック回帰によるキャリブレーション融合）条件でシステムスコアを調整。

実験結果

リサーチクエスチョン

RQ1Fixed 条件と Open 条件で複数の CNN ベース埋め込み（x-vector および ResNet34）を組み合わせると VoxSRC 2019 の性能にどのような影響があるか？
RQ2バックエンド（PLDA 対コサイン）とデータ拡張戦略は検証精度にどう影響するか？
RQ3VoxCeleb テストセットで最良の EER と MinDCF を生むフュージョンおよびキャリブレーション戦略はどれか？
RQ4訓練データの選択（Fixed: VoxCeleb-2 のみ；Open: VoxCeleb-1/2、LibriSpeech、DeepMine）は結果にどのような影響を与えるか？
RQ5追加的 Angular Margin ロスは微調整した ResNet および x-vector システムの識別性を改善するか？

主な発見

#	Fixed/Open	Acc. features	Embd NN Backend	S-norm	Vox1 O cleaned	Vox1 E cleaned	Vox1 H cleaned	MinDCF	EER	MinDCF	EER
1	Fixed	FBANK	ResNet256 + AAM	cos	yes	0.166	1.42	0.164	1.35	0.233	2.48
2	Fixed	FBANK	ResNet160 + AAM	cos	yes	0.154	1.31	0.163	1.38	0.233	2.50
3	Fixed	FBANK	TDNN + AAM	PLDA	no	0.181	1.46	0.185	1.57	0.299	2.89
4	Fixed	PLP	TDNN	PLDA	no	0.213	1.94	0.239	2.03	0.379	3.97
5	Open	FBANK	ResNet256 + AAM	cos	yes	0.157	1.22	0.102	0.81	0.164	1.50
6	Open	FBANK	TDNN	PLDA	no	0.195	1.65	0.170	1.42	0.288	2.70
7	Open	PLP	TDNN	PLDA	no	0.210	1.98	0.163	1.51	0.249	2.83
8	Fixed	Fusion	1+2+3+4 (weighted average)	-	-	0.131	1.02	0.138	1.14	0.212	2.12
9	Open	Fusion	1+2+3+4 LR	-	-	0.131	1.02	0.138	1.14	0.212	2.12
10	Open	Fusion	2+5+6+7 LR	-	-	0.118	0.96	0.098	0.80	0.160	1.51

Fixed 条件の最適フュージョンはチャレンジ評価セットで 1.42% の EER を達成。
Open 条件の最適フュージョンは評価セットで 1.26% の EER を達成。
Open 条件のシステムはより広いデータ（VoxCeleb-1/2、LibriSpeech、DeepMine）で訓練されることで、より多様なデータに露出し、固定条件よりも一部の指標で上回る。
ResNet34 ベースの埋め込みは cosine スコアリングと適応スコア正規化を組み合わせた設定で Open 環境で高い性能を示す。
フュージョン（Fixed は加重平均、Open はロジスティック回帰でキャリブレーションされたフュージョン）は個々のシステムよりも顕著な利益をもたらす。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。