QUICK REVIEW

[論文レビュー] Transformers with convolutional context for ASR

Abdelrahman Mohamed, Dmytro Okhonko|arXiv (Cornell University)|Apr 26, 2019

Natural Language Processing Techniques参考文献 25被引用数 152

ひとこと要約

本論文はASRにおけるトランスフォーマーのサイン波状位置埋め込みを、畳み込みで学習される入力表現に置換え、安定した学習とLibrispeechでの外部言語モデルなしでのWER向上を実現する。

ABSTRACT

The recent success of transformer networks for neural machine translation and other NLP tasks has led to a surge in research work trying to apply it for speech recognition. Recent efforts studied key research questions around ways of combining positional embedding with speech features, and stability of optimization for large scale learning of transformer networks. In this paper, we propose replacing the sinusoidal positional embedding for transformers with convolutionally learned input representations. These contextual representations provide subsequent transformer blocks with relative positional information needed for discovering long-range relationships between local concepts. The proposed system has favorable optimization characteristics where our reported results are produced with fixed learning rate of 1.0 and no warmup steps. The proposed model achieves a competitive 4.7% and 12.9% WER on the Librispeech ``test clean'' and ``test other'' subsets when no extra LM text is provided.

研究の動機と目的

TransformerベースのASRにおいて、音声特徴に位置情報を導入する方法を調査する。
Transformerブロックの前に入力処理として畳み込みコンテキストを提案し、相対的な位置情報信号を提供する。
ASRにおける畳み込みコンテキストを持つ深いエンコーダの最適化安定性と性能を検討する。
外部言語モデルデータを使用せずに評価し、LMの改善と直交性を評価する。

提案手法

サイン波位置埋め込みを2-D convNetエンコーダと1-D convNetデコーダで置換し、文脈入力表現を学習する。
エンコーダに2-Dの畳み込みブロックを2つ、深いアーキテクチャを持つ複数のエンコーダトランスフォーマーブロックを使用する。
デコーダ埋め込みに1-D畳み込みブロックを適用し、別個のデコーダトランスフォーマーブロックとアテンション層を用いる。
学習率のウォームアップを避け、AdaDeltaを固定学習率1.0と勾配クリッピングで用いる。
Librispeech 1000hで5kのユニグラムサブワード単位を用いてエンドツーエンドで訓練し、80エポックの平均直前30チェックポイントを報告する。

実験結果

リサーチクエスチョン

RQ1畳み込みコンテキストは、トランスフォーマーが音声の長距離依存をモデル化するために必要な相対的位置情報を提供するか。
RQ2デコーダの畳み込みコンテキスト深度とエンコーダ/デコーダの深さは、Librispeechのdev/ test、clean/ otherのシナリオでWERにどのような影響を与えるか。
RQ3サイン波位置埋め込みを学習済みの畳み込みコンテキストに置き換えることがASR性能にどのような影響を与えるか。
RQ4畳み込みコンテキストを持つ深いエンコーダは、外部言語モデルなしで競争力のあるWERを達成できるか。

主な発見

提案された畳み込みコンテキストは、いくつかの設定でサイン波位置埋め込みよりWERを改善する。
深いエンコーダ（例：16エンコーダブロック）と多層デコーダアテンションを備えた最良の構成は、dev otherおよびtest otherで、それぞれ相対的WER削減を12%および16%を達成し、追加LMデータなし。
デコーダのコンテキスト深度とエンコーダの深さを広く取ることが、浅い設定よりWERを改善する傾向がある。複数の畳み込み層に跨る広い文脈が有利。
外部LMテキストを使用しない場合でも、Librispeechのtest cleanとtest otherで4.7と12.9のWERを達成しており、従来の結果と比較して改善。
AdaDeltaとウォームアップなしで固定学習率1.0を用いても、安定した収束と強力な性能を得られる。
将来的なLMベースの改善（例：OCD）とこのアプローチを組み合わせると、さらなる利得が得られる可能性。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。