QUICK REVIEW

[論文レビュー] Speaker Verification using Convolutional Neural Networks

Hossein Salehghaffari|arXiv (Cornell University)|Mar 14, 2018

Speech Recognition and Synthesis参考文献 20被引用数 20

ひとこと要約

この論文では、MFCC特徴量を用いて、話者固有の表現と話者内変動に不変な表現を同時に学習する、Siamese畳み込みニューラルネットワーク（CNN）アーキテクチャを用いた新しいエンドツーエンド型話者認証システムを提案する。有効なペア選択戦略を用いて事前学習済みのバックグラウンドモデルをSiamese学習で微調整することで、VoxCelebデータセット上で10.5%の等誤差率（EER）を達成し、従来のGMM-UBMおよびi-vectorベースラインを上回った。

ABSTRACT

In this paper, a novel Convolutional Neural Network architecture has been developed for speaker verification in order to simultaneously capture and discard speaker and non-speaker information, respectively. In training phase, the network is trained to distinguish between different speaker identities for creating the background model. One of the crucial parts is to create the speaker models. Most of the previous approaches create speaker models based on averaging the speaker representations provided by the background model. We overturn this problem by further fine-tuning the trained model using the Siamese framework for generating a discriminative feature space to distinguish between same and different speakers regardless of their identity. This provides a mechanism which simultaneously captures the speaker-related information and create robustness to within-speaker variations. It is demonstrated that the proposed method outperforms the traditional verification methods which create speaker models directly from the background model.

研究の動機と目的

テキストに依存しない話者認証の向上を図り、話者間の差を捉えるが話者内変動に頑健な判別可能な話者表現を学習すること。
背景モデル出力の平均化に依存する従来手法の制限を克服すること。
Siamese学習を用いて話者識別性と頑健性を同時に最適化するエンドツーエンドで学習可能なシステムを構築すること。
アクティブペア選択がSiameseネットワーク学習における判別性能向上に与える影響を調査すること。
事前学習済みCNNをSiamese学習で微調整することで、標準的な特徴量平均化よりも優れた話者埋め込みが得られることを実証すること。

提案手法

2ストリームのSiamese CNNアーキテクチャを用い、2つの発話ペアを比較することで、同一話者ペアは近づき、異なる話者ペアは遠ざかる共通の埋め込み空間を学習する。
ネットワークはまず、交差エントロピー損失を用いて背景モデルとして分類器として事前学習され、その後、マージンMを用いたコントラスト損失関数で微調整される。
コントラスト損失は次式で定義される：$ L_W = \frac{1}{N} \sum_{i=1}^N \left[ Y \cdot \frac{1}{2} D_W^2 + (1-Y) \cdot \frac{1}{2} \max\{0, M - D_W\}^2 + \lambda \|W\|_2 \right] $、ここで$ D_W $は埋め込み間のL2距離である。
Siameseモデルは、初期学習率0.00001で20エポック、微調整時に層を凍結せずに訓練される。
スコアリングの評価では、各話者の発話の最終埋め込みを平均化して話者モデルを作成し、類似度評価にコサイン類似度を用いる。
硬いネガティブペアを優先することで、学習効率と性能を向上させるためにアクティブペア選択法を採用する。

実験結果

リサーチクエスチョン

RQ1MFCCを用いて訓練されたSiamese CNNアーキテクチャは、GMM-UBMやi-vectorといった従来の話者認証システムを上回る性能を示せるか？
RQ2事前学習済みバックグラウンドモデルをSiamese学習で微調整することで、埋め込みの平均化に比べて話者表現の質が向上するか？
RQ3アクティブペア選択は、学習された埋め込み空間の判別力向上にどの程度効果的か？
RQ4話者認証のためのCNNをエンドツーエンドで訓練することで、2段階アプローチよりも優れた性能が得られるか？
RQ5マージンベースのコントラスト損失を用いることで、話者埋め込みの一般化性能にどのような影響を与えるか？

主な発見

提案手法は、VoxCelebテストセットで10.5%の等誤差率（EER）を達成し、GMM-UBMベースライン（17.1% EER）を顕著に上回った。
i-vector + PLDAシステムは11.5% EERを示したが、ペア選択を用いたCNN-256は10.5% EERを達成し、明確な性能向上を示した。
Siamese微調整戦略により、CNN-2048ベースライン（11.3% EER）と比較してEERが1.3ポイント低下し、判別的学習の利点が裏付けられた。
i-vector + PLDAシステム（話者認証分野で強力なベースラインとされる）を上回る性能を示した。
Siamese学習中にアクティブペア選択を用いることで、ランダムサンプリングに比べて収束性と性能が向上した。
重みの凍結なしにネットワーク全体を微調整することで、部分的微調整よりも一般化性能が向上したことが、アブレーション結果から確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。