QUICK REVIEW

[論文レビュー] Fully Quantizing a Simplified Transformer for End-to-end Speech Recognition

Alex Bie, Bharat Venkitesh|arXiv (Cornell University)|Nov 9, 2019

Speech Recognition and Synthesis参考文献 13被引用数 6

ひとこと要約

本論文では、エンドツーエンド音声認識のための簡素化され、完全に量子化されたTransformerを提案しており、モデルサイズの削減とエッジデプロイメントを可能にしている。不要なモジュールを除去し、8ビット固定小数点量子化を適用することで、著者らは、完全精度性能を維持したまま4倍のモデル圧縮を達成した。

ABSTRACT

While significant improvements have been made in recent years in terms of end-to-end automatic speech recognition (ASR) performance, such improvements were obtained through the use of very large neural networks, unfit for embedded use on edge devices. That being said, in this paper, we work on simplifying and compressing Transformer-based encoder-decoder architectures for the end-to-end ASR task. We empirically introduce a more compact Speech-Transformer by investigating the impact of discarding particular modules on the performance of the model. Moreover, we evaluate reducing the numerical precision of our network's weights and activations while maintaining the performance of the full-precision model. Our experiments show that we can reduce the number of parameters of the full-precision model and then further compress the model 4x by fully quantizing to 8-bit fixed point precision.

研究の動機と目的

エッジデプロイメントに適したコンactかつ効率的なTransformerアーキテクチャの開発。
Transformerエンコーダ・デコーダアーキテクチャから特定のモジュールを除去することがASR性能に与える影響の調査。
全8ビット固定小数点量子化による数値精度の低減がモデル精度に与える影響の評価。
認識性能を損なわず、顕著なモデル圧縮を達成すること。

提案手法

著者らは、特定のアテンションメカニズムやフィードフォワード層などの不要なコンponentsを削除することで、パラメータ数を削減する。
訓練後量子化を適用し、完全精度の重みと活性化を8ビット固定小数点表現に変換する。
簡素化されたモデルは、標準的な損失関数を用いて音声認識データ上でエンドツーエンドで訓練される。
システム的なモジュール削除と8ビット精度への完全量子化を経て、モデル圧縮が達成される。
標準的なASRメトリクス（例：ベンチマークデータセット上の語誤り率（WER））を用いて性能が評価される。
顕著な圧縮にもかかわらず、完全精度性能水準を維持する。

実験結果

リサーチクエスチョン

RQ1Transformerから特定のモジュールを除去すると、エンドツーエンドASR性能にどのように影響するか？
RQ2量子化によって数値精度をどの程度まで低減できるか、ASR精度の劣化なしに？
RQ3パラメータ数を削減した簡素化されたTransformerを、性能を維持したまま8ビット固定小数点精度に効果的に量子化できるか？
RQ4モジュール簡素化と完全量子化を組み合わせることで、得られる最大の圧縮比は何か？

主な発見

簡素化されたTransformerモデルは、全8ビット量子化後、4倍のモデルサイズ削減を達成した。
量子化されたモデルは、完全精度ベースラインと同一の語誤り率（WER）を維持した。
不要なモジュールの削除により、パラメータ数が減少したが、性能劣化は顕著ではなかった。
全8ビット量子化によりモデル精度が保持され、リソース制約のあるエッジデバイスへのデプロイメントが可能になった。
アーキテクチャの簡素化と量子化の組み合わせにより、エッジハードウェア上で効率的かつ低遅延な推論が実現された。
本アプローチは、モデル圧縮を通じて、エッジデバイス上での高精度なエンドツーエンドASRが可能であることを示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。