Skip to main content
QUICK REVIEW

[論文レビュー] Mixed-Precision Training for NLP and Speech Recognition with OpenSeq2Seq

Oleksii Kuchaiev, Boris Ginsburg|arXiv (Cornell University)|May 25, 2018
Topic Modeling参考文献 20被引用数 41
ひとこと要約

OpenSeq2Seq は TensorFlow ベースのツールキットで、混合精度と分散トレーニングを seq2seq モデルに提供し、NMT、ASR、音声合成タスクで精度低下なしに学習時間を1.5-3倍短縮します。

ABSTRACT

We present OpenSeq2Seq - a TensorFlow-based toolkit for training sequence-to-sequence models that features distributed and mixed-precision training. Benchmarks on machine translation and speech recognition tasks show that models built using OpenSeq2Seq give state-of-the-art performance at 1.5-3x less training time. OpenSeq2Seq currently provides building blocks for models that solve a wide range of tasks including neural machine translation, automatic speech recognition, and speech synthesis.

研究の動機と目的

  • モジュール化された extensible な TensorFlow ベースの seq2seq モデル向けツールキットを提供する。
  • Volta/Turing GPU の Tensor Cores を活用するための混合精度訓練を可能にする。
  • Horovod を用いた分散トレーニングをサポートし、マルチGPU/マルチノード環境での高速実行を促進する。
  • MT と ASR タスクでの学習時間を短縮した最先端の性能を示す。

提案手法

  • DataLayer, Model, Encoder, Decoder, Loss などのモジュール化されたコアクラスを導入する。
  • FP16 演算と FP32 マスターウェイト、損失スケーリングを用いた混合精度訓練を実装する。
  • MixedPrecisionOptimizerWrapper を提供して FP16 勾配と FP32 更新を扱う。
  • Horovod ベースの分散訓練を有効にして、スケーラブルなマルチGPU/マルチノード実行を実現する。
  • GNNT、ConvS2S、Transformer、Deep Speech 2、Wave2Letter+、Tacotron 2 などを含む、構成可能なモデルブロックを提供する。
  • MT、ASR、TTS タスクでのパフォーマンスベンチマークを提示する。

実験結果

リサーチクエスチョン

  • RQ1混合精度訓練は、精度を犠牲にすることなく seq2seq モデルの訓練を高速化できるか?
  • RQ2OpenSeq2Seq の MT、ASR、TTS タスクにおける性能とメモリ使用量はどうなるか?
  • RQ3分散訓練(Horovod)は、GPU やノード間のスケーリングにどのような影響を与えるか?
  • RQ4新しい seq2seq モデルを組み合わせる際のモジュール型アーキテクチャはどれほど柔軟か?
  • RQ5混合精度訓練中に重要なコンポーネントの FP32 精度を維持するための実務上の考慮点は何か?

主な発見

  • 混合精度訓練は、メモリ使用量を削減し、MT、ASR、TTS タスクで学習を1.5–3x速くする。
  • 損失スケーリングと FP32 マスターウェイトは、FP16 の前方/後方伝播中の精度を維持する。
  • Horovod ベースの分散訓練は、特に GPU 数が多い場合、TensorFlow native のタワーよりも大幅にスケールする。
  • GNMT、ConvS2S、Transformer ブロックを組み合わせて、さまざまな NMT モデルを構築し、競争力のある BLEU スコアを得られる。
  • ASR の結果は、混合精度設定でメモリ使用量が約57%削減され、実質的な速度向上を示す。
  • Tacotron 2 の混合精度訓練は、FP32 と比較して約1.6倍の学習速度を達成する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。