QUICK REVIEW

[論文レビュー] Deep Speaker: an End-to-End Neural Speaker Embedding System

Chao Li, Xiaokong Ma|arXiv (Cornell University)|May 5, 2017

Speech Recognition and Synthesis参考文献 14被引用数 426

ひとこと要約

Deep Speaker は ResCNN または GRU フレーム抽出器とトリプレット損失および softmax 前学習を用いて hypersphere にマップされたエンドツーエンドの話者埋め込みを提案し、i-vector ベースラインに対して substantial improvements を達成し、言語を超えた転送を実現します。

ABSTRACT

We present Deep Speaker, a neural speaker embedding system that maps utterances to a hypersphere where speaker similarity is measured by cosine similarity. The embeddings generated by Deep Speaker can be used for many tasks, including speaker identification, verification, and clustering. We experiment with ResCNN and GRU architectures to extract the acoustic features, then mean pool to produce utterance-level speaker embeddings, and train using triplet loss based on cosine similarity. Experiments on three distinct datasets suggest that Deep Speaker outperforms a DNN-based i-vector baseline. For example, Deep Speaker reduces the verification equal error rate by 50% (relatively) and improves the identification accuracy by 60% (relatively) on a text-independent dataset. We also present results that suggest adapting from a model trained with Mandarin can improve accuracy for English speaker recognition.

研究の動機と目的

話者認識のための頑健なエンドツーエンド埋め込みアプローチを動機づけ、 utterance レベルの類似性を直接最適化する。
フレームレベルの特徴抽出のための二つの深層アーキテクチャ（ResCNN と GRU）を開発・比較する。
mean pooling による utterance 埋め込みを学習し、triplet loss で最適化された cosines normalization を用いる。
softmax 前学習とハードネガティブ・マイニングを GPU 間で行い、収束を改善する。
クロス言語転移（ Mandarin-English ）とデータ規模および enrollment utterances の影響を実証する。

提案手法

フレームレベル特徴のための二つの深層アーキテクチャを使用する：残差型CNN（ResCNN）と積み重ねたGRUネットワーク。
utterance 表現を生成するための文レベル平均プーリングを適用し、続いて長さ正規化を伴う512次元埋め込みへのアファイン射影を行う。
同じ話者のペアの類似性を異なる話者のペアよりも高く保つことを目的としたコサインベースの Triplet Loss で訓練し、ハードネガティブは GPU across で見つける。
トリプレット損失の微調整前に訓練を安定化/初期化するための分類層を用いた softmax 前学習を採用する。
mini-batch 内で難易度の高いネガティブを選択するために GPU across をスキャンして hard negative mining を探索し、収束挙動を強化する。
埋め込みまたはスコア融合を通じて ResCNN と GRU を統合して性能を向上させるオプション。

実験結果

リサーチクエスチョン

RQ1エンドツーエンドの埋め込み学習と triplet loss が、テキスト独立タスクおよびテキスト依存タスクで従来の i-vector ベースラインを上回るか？
RQ2ResCNN と GRU のアーキテクチャは、 Mandarin および English のデータセットに対して頑健な話者埋め込みを生み出すか？
RQ3softmax 前学習とクロス-GPU の hard negative mining は訓練の安定性と最終精度にどのような影響を与えるか？
RQ4訓練データ量、 enrollment utterance の数、クロス言語適応は性能にどのように影響するか？
RQ5Deep Speaker は言語を跨いで（Mandarin から English へ）転送し、テキスト依存シナリオでも有効であり続けるか？

主な発見

Deep Speaker は検証の EER を Mandarin UIDs で約 50-80% 減少させ、識別誤差を 60-70% 減少させ、DNN i-vector と比較して改善を達成している。
softmax 前学習の後に triplet 微調整を行うと、ResCNN と GRU の両方で最良の性能を得られる。
Mandarin のテキスト独立タスクでは、ResCNN with softmax+triplet は 2.23% の EER と 90.53% の ACC を達成し、DNN i-vector ベースラインの 13.79% EER および 51.72% ACC に対して優位である。
MTurk の English データで、微調整済みモデルは大幅な利得を達成（例：高い ACC で EER が約 2.4-2.7% 縮小）。
Train50k から Train250k へ訓練データを増やすと性能が向上（例：ResCNN: EER が 2.23% → 1.83%、ACC が 90.53% → 92.58%）。
enrollment utterance の数は EER/ACC を改善するが、リターンは次第に減衰する（例：1→5 の enrollment で顕著な改善）。
大規模（テキスト独立）データで訓練された Deep Speaker モデルは、XiaoDu のテキスト依存タスクおよびクロス言語 MTurk タスクへ効果的に転移し、ファインチューニングでさらに結果が改善する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。