QUICK REVIEW

[論文レビュー] Augmentation adversarial training for unsupervised speaker recognition.

Jaesung Huh, Hee Soo Heo|arXiv (Cornell University)|Jul 23, 2020

Speech Recognition and Synthesis参考文献 42被引用数 35

ひとこと要約

本論文では、チャネル変動を模倣するデータ拡張に対してモデルの頑健性を高めるために、拡張 adversarial training を提案する。これらの拡張に対して不変であるようにネットワークを訓練することで、モデルは話者IDをチャネル特性から分離するよう学習し、VoxCeleb および VOiCES で最先端の性能を達成し、人間の水準を超える。

ABSTRACT

The goal of this work is to train robust speaker recognition models without speaker labels. Recent works on unsupervised speaker representations are based on contrastive learning in which they encourage within-utterance embeddings to be similar and across-utterance embeddings to be dissimilar. However, since the within-utterance segments share the same acoustic characteristics, it is difficult to separate the speaker information from the channel information. To this end, we propose augmentation adversarial training strategy that trains the network to be discriminative for the speaker information, while invariant to the augmentation applied. Since the augmentation simulates the acoustic characteristics, training the network to be invariant to augmentation also encourages the network to be invariant to the channel information in general. Extensive experiments on the VoxCeleb and VOiCES datasets show significant improvements over previous works using self-supervision, and the performance of our self-supervised models far exceed that of humans.

研究の動機と目的

自己教師付き話者表現学習において、話者IDとチャネル特性を分離する課題に対処する。
共通の音響特徴により話者内埋め込みが類似するため、自己教師付き設定における対照的学習の限界を克服する。
チャネル効果を模倣するデータ拡張に対して不変性を高める訓練戦略を開発する。
話者ラベルを一切使用せずに、自己教師付き話者モデルの一般化性能と頑健性を向上させる。
標準ベンチマークで、先行する自己教師付き手法および人間の水準を上回る優れた性能を達成する。

提案手法

時間マスキングや周波数マスキングなどのデータ拡張を適用し、音声データにおけるチャネル変動を模倣する。
これらの拡張に対して不変であるよう促進する敵対的戦略を用いてモデルを訓練するが、同時に話者判別性を保持する。
同じ発話からの埋め込みを引き寄せる対照的学習の目的関数を用いる。
拡張に起因する変動に対して頑健であるようにネットワークを最適化し、チャネル固有のアーチファクトを無視するよう暗黙的に学習する。
拡張が現実のチャネル効果を模倣していることを利用し、それらに対して不変であることは、実際のチャネル変動に対しても不変性を促進する。
話者レベルのアノテーションを一切使用せず、自己教師付き対照的損失を用いてエンドツーエンドで訓練する。

実験結果

リサーチクエスチョン

RQ1話者ラベルが存在しない状況で、データ拡張を用いた adversarial training は話者表現学習を改善できるか？
RQ2データ拡張に対する不変性は、話者認識におけるチャネル変動への頑健性向上にどの程度寄与するか？
RQ3提案手法は、標準的な話者認識ベンチマークで、既存の自己教師付き対照的学習手法を上回るか？
RQ4この手法で訓練された自己教師付きモデルは、話者認識において人間の水準を超えることができるか？
RQ5VoxCeleb や VOiCES といった多様なデータセットにおいて、モデルの一般化性能はどの程度高いか？

主な発見

提案された拡張 adversarial training 法は、自己教師付き話者認識において、VoxCeleb データセットで最先端の性能を達成した。
VOiCES データセットでは、従来の自己教師付きアプローチよりも顕著な改善を示した。
自己教師付きモデルの性能は、VoxCeleb および VOiCES データセットの両方で人間の性能を上回った。
拡張に起因する変動に対して不変性を学習することで、話者IDとチャネル特性の分離が効果的に実現された。
データ拡張に対する頑健性のおかげで、困難なチャネル条件下でも強力な性能を維持した。
結果から、拡張に対する不変性が、音声における実世界のチャネル変動に対してもうまく一般化することが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。