QUICK REVIEW

[論文レビュー] Dense Prediction on Sequences with Time-Dilated Convolutions for Speech Recognition

Tom Sercu, Vaibhava Goel|arXiv (Cornell University)|Nov 28, 2016

Speech and Audio Processing参考文献 22被引用数 47

ひとこと要約

本論文では、時間方向に拡張された畳み込みを提案することで、時間方向のストライドプーリングを許容しつつも、完全な発話全体の推論を維持することにより、音声認識における効率的で高密度なシーケンスラベリングを実現する。コンピュータビジョン分野で用いられる拡張畳み込みを応用することで、バッチ正規化をサポートし、大規模なn-gram言語モデルを用いてHub5'00で7.7%のWERを達成した。これは、単一モデル・単一パス性能において、新たな最先端水準を樹立した。

ABSTRACT

In computer vision pixelwise dense prediction is the task of predicting a label for each pixel in the image. Convolutional neural networks achieve good performance on this task, while being computationally efficient. In this paper we carry these ideas over to the problem of assigning a sequence of labels to a set of speech frames, a task commonly known as framewise classification. We show that dense prediction view of framewise classification offers several advantages and insights, including computational efficiency and the ability to apply batch normalization. When doing dense prediction we pay specific attention to strided pooling in time and introduce an asymmetric dilated convolution, called time-dilated convolution, that allows for efficient and elegant implementation of pooling in time. We show results using time-dilated convolutions in a very deep VGG-style CNN with batch normalization on the Hub5 Switchboard-2000 benchmark task. With a big n-gram language model, we achieve 7.7% WER which is the best single model single-pass performance reported so far.

研究の動機と目的

フレームごとの音声分類を、コンピュータビジョン分野のピxls単位のセグメンテーションと同様に、完全な発話全体に対する高密度予測タスクとして再定式化すること。
ストライドプールを時間方向に拡張された畳み込みに置き換えることで、音声モデリングにおける効率的で完全発話推論を可能にすること。
ネットワーク全体で高分解能の特徴マップを維持することで、シーケンス学習中にバッチ正規化をサポートすること。
ダウンサンプリングを犠牲にせずに、より広い文脈的モデリングを可能にすることで、Hub5'00ベンチマークにおける性能を向上させること。
拡張畳み込みを用いて、スタックドボトルネックネットワークなどの既存アーキテクチャを統合的かつ拡張的に発展させること。

提案手法

ストライドプール層を、プールストライドと等しい拡張率を持つ時間方向に拡張された畳み込みに置き換えることで、完全な空間（時間的）分解能を維持する時間方向に拡張された畳み込みを導入する。
時間方向に拡張された畳み込みを用いて、ダウンサンプリングを行わずに受容 field を拡大し、深層ネットワークにおける広範な文脈モデリングを可能にする。
訓練の安定化と一般化性能の向上のため、周波数および時間方向の両方でバッチ正規化を適用する。
残差接続を備えたVGGスタイルの深層CNNを採用し、時間方向に拡張された畳み込みを組み合わせることで、強固な特徴抽出を実現する。
2段階の訓練を実施：まず16億フレームで交差エントロピー学習を行い、その後3億1000万フレームでNesterovのモーメントを用いたシーケンス学習を実施する。
デコードには大規模な3600万語のn-gram言語モデルを用い、保留セット上で事前確率のスケーリングと音声的重み調整を実施する。

実験結果

リサーチクエスチョン

RQ1時間方向に拡張された畳み込みによる高密度予測は、バッチ正規化をサポートしつつ、音声認識における効率的で完全発話推論を可能にするか？
RQ2ストライドプールを時間方向に拡張された畳み込みに置き換えると、Hub5'00ベンチマークにおける性能にどのような影響を与えるか？
RQ3時間方向に拡張された畳み込みは、スタックドボトルネックネットワークのような既存アーキテクチャを統合的かつ拡張的に可能にするか？
RQ4このアーキテクチャを用いた場合、大規模なn-gram言語モデルの使用が、単一モデル・単一パスのWERに与える影響は何か？
RQ5このアプローチは、ハイブリッドHMM/NNモデルおよびエンドツーエンド音声認識モデルの両方を改善できるか？

主な発見

提案手法は、大規模な3600万語のn-gram言語モデルを用いて、Hub5'00で7.7%のWERを達成した。これは、これまでに報告された中で最高の単一モデル・単一パス性能である。
先行研究と比較して、Hub5'00におけるWERを9.4%から8.5%に低下させ、相対的に10%の改善を達成した。これは、時間方向に拡張された畳み込みの有効性を示している。
完全発話分解能を維持することで、シーケンス学習中にバッチ正規化を成功裏に適用でき、一般化性能の向上が見られた。
特定の拡張率を用いることで、このアーキテクチャがスタックドボトルネックネットワークと同等であることが示され、既存モデルの統一的視覚が得られた。
ダウンサンプリングを行わずとも、時間方向に効率的なプールを実現でき、より深いネットワークと広範な文脈モデリングを可能にしながら、計算効率を維持した。
このモデルは、n-gram言語モデルのみを用いても先行システムを上回り、RNN/LMシステムによる再スコアリングによってさらなる向上が可能であることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。