QUICK REVIEW

[論文レビュー] ContextNet: Improving Convolutional Neural Networks for Automatic Speech Recognition with Global Context

Wei Han, Zhengdong Zhang|arXiv (Cornell University)|May 7, 2020

Speech Recognition and Synthesis参考文献 36被引用数 72

ひとこと要約

ContextNetはCNNベースの音声エンコーダ内で squeeze-and-excitation によるグローバルコンテキストを導入し、RNN-T フレームワーク内で LibriSpeech に対して最先端またはほぼSOTA の WER を達成し、パラメータ数を削減しつつ柔軟にスケール可能です。また、速度と精度のトレードオフのためのダウンサンプリングの効果も示します。

ABSTRACT

Convolutional neural networks (CNN) have shown promising results for end-to-end speech recognition, albeit still behind other state-of-the-art methods in performance. In this paper, we study how to bridge this gap and go beyond with a novel CNN-RNN-transducer architecture, which we call ContextNet. ContextNet features a fully convolutional encoder that incorporates global context information into convolution layers by adding squeeze-and-excitation modules. In addition, we propose a simple scaling method that scales the widths of ContextNet that achieves good trade-off between computation and accuracy. We demonstrate that on the widely used LibriSpeech benchmark, ContextNet achieves a word error rate (WER) of 2.1%/4.6% without external language model (LM), 1.9%/4.1% with LM and 2.9%/7.0% with only 10M parameters on the clean/noisy LibriSpeech test sets. This compares to the previous best published system of 2.0%/4.6% with LM and 3.9%/11.3% with 20M parameters. The superiority of the proposed ContextNet model is also verified on a much larger internal dataset.

研究の動機と目的

CNNベースのASRを改善してRNN/Transformerモデルとのギャップを埋める動機づけとして、グローバルコンテキストを導入する。
CNNエンコーダに squeeze-and-excitation モジュールを組み込んだ ContextNet アーキテクチャを提案する。
精度と効率のバランスを取るためのモデルスケーリングと段階的なダウンサンプリングを検討する。

提案手法

深さ方向に分離可能畳み込みと Swish 活性化を用いた完全畳み込みオーディオエンコーダを使用する。
各畳み込みブロックにグローバルコンテキストを注入するために1D squeeze-and-excitationを組み込む。
エンドツーエンドのCNN-RNN-Tアーキテクチャを形成するためにRNN-Tデコーダを採用する。
計算量を削減するために進行的な8xの時系列ダウンサンプリングを適用する。
FLOPsと精度のトレードオフのためにパラメータalphaでモデルの幅をスケールする。
SpecAugmentとTransformer/LSTM言語モデルを用いた浅層フュージョンでLibriSpeech上で訓練・評価する。

実験結果

リサーチクエスチョン

RQ1グローバルコンテキストを squeeze-and-excitation でCNNエンコーダに追加することで、従来のCNNモデルと比較して LibriSpeech の WER を低減できるか？
RQ2ContextNet における段階的ダウンサンプリングが計算量と精度に与える影響は？
RQ3ContextNet は幅（alpha）を拡張した場合どのようにスケールし、LibriSpeech で Transformer/LSTM バイラインと従来の CNN モデルと比較してどうか？
RQ4外部言語モデルを使わず、ノイズの多いテストセットで評価した場合、ContextNet は頑健か？
RQ5このアプローチは LibriSpeech を超えるより大きなデータセットにも一般化するか？

主な発見

ContextNet(L) は LibriSpeech で LM なしで 1.9% の test-clean、4.1% の test-other、LM ありで 4.6%/4.1% を達成?（表の数値参照）
ContextNet(M) は LM なしで dev-clean 2.4%、dev-other 5.4%、test-clean 2.0%、test-other 4.5%
ContextNet(S) は LM なしで dev-clean 2.9%、dev-other 7.0%、test-clean 2.3%、test-other 5.5%
ContextNet は QuartzNet のような従来の CNN モデルを上回り、複数の Transformer/LSTM ベースラインよりも WER およびパラメータ効率で優れる（Table 2）
Progressive 8x ダウンサンプリングは FLOPs を大幅に削減し、精度への影響は小さくかつ場合によっては正の影響を与える（Table 4）
モデル幅を増やすと WER が改善され、より大きなパラメータ予算で効果が現れる（Table 5）
YouTube風データでの大規模実験では ContextNet が TDNN ベースの従来アーキテクチャより WER が上回り、パラメータ数が少なく FLOPs が低いことを示した（Table 6）

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。