QUICK REVIEW

[論文レビュー] QuartzNet: Deep Automatic Speech Recognition with 1D Time-Channel Separable Convolutions

Samuel Kriman, Stanislav Beliaev|arXiv (Cornell University)|Oct 22, 2019

Speech Recognition and Synthesis参考文献 27被引用数 31

ひとこと要約

QuartzNetは、1次元時間-チャネル分離畳み込みを用いた深く効率的なエンドツーエンド自動音声認識モデルを導入し、2000万パラメータ未満でLibriSpeechおよびWall Street Journalで準最良の単語誤り率を達成した。これは従来のモデルと比較して顕著に少ないパラメータ数であり、リソース制約のあるデバイスでも高速なトレーニングとデプロイメントを可能にした。

ABSTRACT

We propose a new end-to-end neural acoustic model for automatic speech recognition. The model is composed of multiple blocks with residual connections between them. Each block consists of one or more modules with 1D time-channel separable convolutional layers, batch normalization, and ReLU layers. It is trained with CTC loss. The proposed network achieves near state-of-the-art accuracy on LibriSpeech and Wall Street Journal, while having fewer parameters than all competing models. We also demonstrate that this model can be effectively fine-tuned on new datasets.

研究の動機と目的

既存のモデルと比較して顕著に少ないパラメータ数で準最良の精度を達成するコンパクトなエンドツーエンド自動音声認識モデルの開発。
モバイルおよび埋め込みデバイスへのデプロイメントを可能にするために、ASRモデルの計算およびメモリ要件を低減すること。
時間とチャネルごとの演算を分離する1次元畳み込みにおける深さ方向分離畳み込みに基づくモデルアーキテクチャの設計。
限られたターゲットドメインデータで新しいデータセットに適応するための有効なトランスファー学習の実証。
モデル圧縮および混合精度トレーニングを通じて、高い推論スループットと高速なトレーニングを達成すること。

提案手法

標準の1次元畳み込みを、時間方向への深さ方向畳み込みとチャネル方向へのポイントワイド畳み込みに分解する1次元時間-チャネル分離畳み込みに置き換え。
各残差ブロックを、深さ方向畳み込み、ポイントワイド畳み込み、バッチ正規化、ReLU活性化関数を含む複数のモジュールのスタックとして構造化。
生の音声特徴を直接文字列にマッピングするため、エンドツーエンドトレーニングに接続主義的時系列分類（CTC）損失関数を適用。
速度変更とSpecCutoutを含むデータオーグメンテーション技術を適用し、モデルのロバスト性と一般化性能を向上。
マルチGPUシステムでのメモリ容量削減とトレーニング速度向上のため、混合精度トレーニングを適用。
新しいデータセット（例：WSJ）に対して、事前学習済みモデルをトランスファー学習により微調整し、限られたデータで新しいドメインに適応。

実験結果

リサーチクエスチョン

RQ11次元時間-チャネル分離畳み込みを用いた深層ニューラルネットワークは、顕著に少ないパラメータ数で準最良のASR性能を達成できるか？
RQ2より多くのパラメータを有する既存のエンドツーエンドASRモデルと比較して、提案アーキテクチャの精度と効率性はどのように異なるか？
RQ3限られたターゲットドメインデータで微調整することにより、モデルはどの程度新しいドメインに一般化できるか？
RQ4混合精度トレーニングとデータオーグメンテーションは、モデルの収束性と推論品質にどのような影響を与えるか？
RQ5リソース制約のあるデバイスへのデプロイメントに適している一方で、LibriSpeechおよびWall Street Journalベンチマークの両方で高い性能を維持できるか？

主な発見

QuartzNet-15x5は、微調整後、LibriSpeech test-cleanで2.96%、test-otherで7.53%の単語誤り率を達成し、わずか1890万パラメータで準最良性能に近づいた。
3000エポックのトレーニング後、LibriSpeech test-cleanで3.87%、test-otherで10.61%のWERを達成し、大バッチ最適化による強い収束性を示した。
Wall Street Journalデータセットでは、QuartzNet-5x3がTransformer-XL言語モデルを用いてnov92-evalで4.82%のWERを達成し、より少ないパラメータ数でRNN-CTCおよびResCNN-LASモデルを上回った。
LibriSpeechおよびCommon Voiceで事前学習したQuartzNet-15x5モデルを、80時間分のWSJデータで微調整することで、WSJ nov92-evalのWERは8.97%から2.99%に低下した（Transformer-XL LMを併用）。
32台のDGX2ノードを用い、グローバルバッチサイズ16KでQuartzNet-15x5をトレーニングしたところ、トレーニング時間は122時間から4.3時間に短縮され、効率的なスケーリングが可能になった。
モデルのパラメータ効率（2000万パラメータ未満）のおかげで、計算およびメモリが制限されたモバイルおよび埋め込みデバイスへのデプロイメントに非常に適している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。