Skip to main content
QUICK REVIEW

[論文レビュー] The Zero Resource Speech Benchmark 2021: Metrics and baselines for unsupervised spoken language modeling

Tu Anh Nguyen, Maureen de Seyssel|arXiv (Cornell University)|Nov 23, 2020
Speech Recognition and Synthesis被引用数 42
ひとこと要約

四つのタスクからなる零ショットベンチマークを無監督の話し言葉言語モデリングのために導入し、CPC+クラスタリング+LM の簡単なベースラインを提案する。実現可能性を示す一方で、テキスト toplines へのギャップは依然として残る。

ABSTRACT

We introduce a new unsupervised task, spoken language modeling: the learning of linguistic representations from raw audio signals without any labels, along with the Zero Resource Speech Benchmark 2021: a suite of 4 black-box, zero-shot metrics probing for the quality of the learned models at 4 linguistic levels: phonetics, lexicon, syntax and semantics. We present the results and analyses of a composite baseline made of the concatenation of three unsupervised systems: self-supervised contrastive representation learning (CPC), clustering (k-means) and language modeling (LSTM or BERT). The language models learn on the basis of the pseudo-text derived from clustering the learned representations. This simple pipeline shows better than chance performance on all four metrics, demonstrating the feasibility of spoken language modeling from raw speech. It also yields worse performance compared to text-based 'topline' systems trained on the same data, delineating the space to be explored by more sophisticated end-to-end models.

研究の動機と目的

  • 資源ゼロのブラックボックス型ベンチマークを定義し、音声学的、語彙的、統語的、意味的レベルで話者言語モデルを評価する。
  • ラベルなしの生データから学習するシンプルな無監督ベースラインパイプラインを実証する。
  • 固定転写の粒度に依存しない解釈可能な指標を提供する。
  • 音声とテキストベースの言語モデリングを橋渡しするオープンソースのデータセットとベースラインを提供する。

提案手法

  • Libri-lightと合成刺激音を用いて、音声学のABX、語彙のsWUGGY、統語のsBLIMP、意味のsSIMI の四つの零ショット指標を提案する。
  • CPCとk-meansの離散化、および疑似テキストで訓練した言語モデル(LSTMまたはBERT)から成る複合ベースラインを構築する。
  • CPC表現のクラスタリングによって音声を単位に離散化し、得られた疑似テキスト上でLMを訓練する。
  • LibriSpeech の音素表現とRoBERTa Largeで訓練されたテキストベースの toplines と比較する。
  • トークンのマスキングスパンを用いたBERT風モデルのシンプルなスパンマスク予測目的を活用する。
  • LibriSpeech LibriLightデータ、音素転写、フォースドアラインメントを含むデータセット構築の詳細を提供する。

実験結果

リサーチクエスチョン

  • RQ1無監督の話し言葉言語モデルは、音響、語彙、統語、意味レベルの言語的に動機づけられた零ショット課題で非ゼロの性能を達成できるか?
  • RQ2単純な CPC+クラスタリング+LM パイプラインは、四つの指標で偶然とテキストベースの topline と比較してどの程度の性能を示すか?
  • RQ3音声ベースのモデルとテキストベースのモデルの限界とギャップは何か、今後の課題はどこに焦点を当てるべきか?

主な発見

  • 単純な CPC+km50+LM ベースラインは、四つの零ショット指標すべてで偶然を上回る性能を示す。
  • 語彙タスクでは偶然を上回るが、統語および意味タスクではテキスト topline を下回る。
  • クラスタリング(50クラス)はABXにおける最適点であり、50を超えるクラスはこの設定ではABXの性能を低下させる。
  • エンドツーエンドやより大規模なモデルは toplines へのギャップを縮める可能性を示す。
  • ベンチマークとベースラインはオープンソース化されており、音声とテキストベースのシステムの橋渡しを促進する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。