QUICK REVIEW

[論文レビュー] Few Shot Speaker Recognition using Deep Neural Networks

Prashant Anand, Ajeet Kumar Singh|arXiv (Cornell University)|Apr 17, 2019

Speech Recognition and Synthesis参考文献 20被引用数 34

ひとこと要約

この論文は、CNNと CapsuleNet を用いたプロトタイプ損失を組み合わせた、非常に少数ショットの話者認識を提案し、オートエンコーダを用いて Capsule クラスベクトルを一般化埋め込み空間へマッピングする。 VoxCeleb1 および VCTK で、非常に短い 3 秒の発話で評価。

ABSTRACT

The recent advances in deep learning are mostly driven by availability of large amount of training data. However, availability of such data is not always possible for specific tasks such as speaker recognition where collection of large amount of data is not possible in practical scenarios. Therefore, in this paper, we propose to identify speakers by learning from only a few training examples. To achieve this, we use a deep neural network with prototypical loss where the input to the network is a spectrogram. For output, we project the class feature vectors into a common embedding space, followed by classification. Further, we show the effectiveness of capsule net in a few shot learning setting. To this end, we utilize an auto-encoder to learn generalized feature embeddings from class-specific embeddings obtained from capsule network. We provide exhaustive experiments on publicly available datasets and competitive baselines, demonstrating the superiority and generalization ability of the proposed few shot learning pipelines.

研究の動機と目的

非常に限られたデータと短い発話で実用的な話者認識を動機づける。
スペクトログラム入力とプロトタイプ損失を用いた少数ショット学習パイプラインを提案する。
CNN と Capsule Network アプローチを評価し、 unseen speaker への一般化を可能にするオートエンコーダを導入する。
プロトタイプ損失がアーキテクチャを超えて少数ショット性能を改善することを示す。

提案手法

オーディオを単一チャンネル 16 kHz、16-bit ストリームに変換し、3 秒の発話ごとに 128x300 のスペクトログラムを計算する。
特徴量抽出器として CNN ベースライン（VGG-M、ResNet-34）と改良 Capsule Network（CapsuleNet-M）を使用する。
CapsuleNet を拡張し、オートエンコーダを用いてプロトタイプ損失に適した一般化埋め込みを生成する。
埋め込み空間でクラスのプロトタイプを学習するためにプロトタイプ損失を適用する。
少数ショット設定のため、Capsule クラスベクトルから埋め込みを生成する収縮オートエンコーダを導入する（CapsuleNet-MA）。
エンドツーエンドで訓練し、5-way および 20-way、1-shot および 5-shot の設定で評価する。

実験結果

リサーチクエスチョン

RQ13 秒発話からの話者識別を少数ショット学習で高精度に可能にするか？
RQ2少数ショット条件下で CNN と Capsule Network アプローチを比較するとどうなるか？
RQ3Capsule 派生のクラスベクトルをオートエンコーダでマッピングすることは unseen speaker への一般化を促進するか？
RQ4プロトタイプ損失はアーキテクチャを越えて少数ショット話者認識の性能を向上させるか？

主な発見

ResNet-34 は標準（少数ショットでない）VoxCeleb1 のサブセットで他のネットワークを大きく上回り、50クラスで Top-1 90.37%、Top-5 98.13%、200クラスで Top-1 71.48%、Top-5 88.45% を達成。
少数ショット設定では、ResNet-34 が 5-way VoxCeleb1 の 1-shot 79.97% および 5-shot 91.50%、一方 CapsuleNet-MA は 1-shot 53.62%、5-shot 82.93%、VGG-M は 1-shot 52.42%、5-shot 82.10% を達成。
CapsuleNet-MA はいくつかの少数ショット設定で VGG-M を上回り、パラメータ数が少ないながら ResNet の性能に迫る。一方、標準 CapsuleNet（CapsuleNet-M）は ResNet に遅れを取りつつ VGG-M とは競争力を維持。
VCTK コーパスでは、非少数ショットの結果として CapsuleNet-M が Top-1 91.95%、Top-5 98.13%、VGG-M が Top-1 95.25%、Top-5 99.45%、ResNet-34 が Top-1 96.91%、Top-5 99.91%。
少数ショットの VCTK では、CapsuleNet-MA が 5-way 1-shot 65.26%、5-way 5-shot 91.28% を示す一方、ResNet-34 は 5-way 1-shot 80.96%、5-way 5-shot 96.46% を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。