QUICK REVIEW

[論文レビュー] vq-wav2vec: Self-Supervised Learning of Discrete Speech Representations

Alexei Baevski, Steffen Schneider|ArXiv.org|Oct 12, 2019

Speech Recognition and Synthesis参考文献 40被引用数 311

ひとこと要約

vq-wav2vecは wav2vec に類似した自己監視型のコンテキスト予測タスクを通じて離散音声表現を学習し、Gumbel-Softmax またはオンライン k-means で量子化し、離散化された音声に対する BERT の事前学習の恩恵を受け、ASR の性能を向上させる。

ABSTRACT

We propose vq-wav2vec to learn discrete representations of audio segments through a wav2vec-style self-supervised context prediction task. The algorithm uses either a gumbel softmax or online k-means clustering to quantize the dense representations. Discretization enables the direct application of algorithms from the NLP community which require discrete inputs. Experiments show that BERT pre-training achieves a new state of the art on TIMIT phoneme classification and WSJ speech recognition.

研究の動機と目的

音声データへの NLP 手法の直接適用を可能にするため、離散音声単位の学習を動機づける。
固定長の離散コードを生成する wav2vec の離散化モジュールを開発する。
離散化された音声に対する BERT の事前学習を活用して下流の ASR 性能を向上させる。

提案手法

wav2vec にベクトル量子化モジュールを拡張して離散コードを生成する。
dense な音声表現のコードブックベースの量子化には Gumbel-Softmax またはオンライン k-means を用いる。
離散化された音声で Bidirectional Transformer (BERT) を訓練して、ASR のコンテキスト豊富な表現を得る。
WSJ と TIMIT で言語モデルの有無で ASR の性能を評価する。

実験結果

リサーチクエスチョン

RQ1自己教師付きのコンテキスト予測によって学習された離散音声表現は、ASR タスクにおいて連続表現と同等またはそれを上回ることができるか？
RQ2離散化された音声に対する BERT の事前学習は、標準ベンチマークで下流の ASR 精度を改善するか？
RQ3異なる量子化戦略（Gumbel-Softmax 対 k-means）が性能とコードブックの利用にどう影響するか？
RQ4音声を離散化する際のビットレート、コードブックサイズ、音響モデル性能のトレードオフは何か？

主な発見

離散化された音声に対する BERT の事前学習は、nov92 で言語モデルなしのいくつかの設定において WSJ で 2.34 WER の最先端結果を達成する。
v q-wav2vec は BERT と組み合わせると TIMIT の音素認識で強い結果を示し、11.64 PER を達成した（当時の最先端）。
Gumbel-Softmax と k-means 量子化は比較的同等のパフォーマンスを示し、BERT と組み合わせた場合には大きなコードブックが wav2vec との差を縮める。
離散化により、標準のシーケンス対シーケンスモデルを含む NLP 風のシーケンスモデルを音声に適用できるようになり、Librispeech で有望な結果が得られている。
実験を通じて、離散化された表現は、ASR に BERT を用いた場合、log-mel 特徴量や密な wav2vec 入力を上回ることが多い。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。