QUICK REVIEW

[論文レビュー] fairseq: A Fast, Extensible Toolkit for Sequence Modeling

Myle Ott, Sergey Edunov|arXiv (Cornell University)|Apr 1, 2019

Topic Modeling参考文献 47被引用数 163

ひとこと要約

fairseq は、分散トレーニング、混合精度、最適化推論を備えた高速で拡張可能な PyTorch ベースのシーケンスモデリング用ツールキットです。

ABSTRACT

fairseq is an open-source sequence modeling toolkit that allows researchers and developers to train custom models for translation, summarization, language modeling, and other text generation tasks. The toolkit is based on PyTorch and supports distributed training across multiple GPUs and machines. We also support fast mixed-precision training and inference on modern GPUs. A demo video can be found at https://www.youtube.com/watch?v=OtgDdWtHvto

研究の動機と目的

PyTorch 上に構築された、高速で拡張可能なシーケンスモデリングツールキットを提供する。
分散トレーニングと混合精度トレーニング、および効率的な推論をサポートします。
機械翻訳、要約、言語モデリングの最先端の実装と事前学習済みモデルを提供します。
モデル、評価基準、タスク、最適化アルゴリズム、スケジューラのプラグインによる簡単な拡張を可能にします。

提案手法

拡張性のためのユーザー提供プラグインの5種類（モデル、基準、タスク、最適化アルゴリズム、スケジューラ）。
プラグインで拡張可能な、モデルとタスクを跨ぐ共通インターフェイス。
ミニバッチ内のパディングを最小化するための効率的なバッチ処理とグルーピング。
NCCL2 と torch.distributed による同期型の複数GPU/複数マシン訓練。
FP16 のフォワード/バックワードと FP32 の更新、および動的損失スケーリングを含む混合精度トレーニング。
キャッシュを用いた高速な非再帰モデルの推論時の逐次デコーディング。
ビーム探索、多様なビーム探索、トップ-k 採択を探索オプションとして。

Figure 1: Illustration of (a) gradient synchronization and idle time during training, (b) overlapping back-propagation (backward) with gradient synchronization to improve training speed, (c) how accumulating gradient updates can reduce variance in processing time and reduce communication time.

実験結果

リサーチクエスチョン

RQ1翻訳、言語モデリング、要約の全領域で、単一のツールキットが高速でスケーラブルかつ拡張性を提供するにはどうすればよいか？
RQ2大規模データセットに対して、どのようなアーキテクチャと訓練戦略が、効率的なマルチGPU/マルチマシン訓練と推論を可能にするか？
RQ3堅牢な損失スケーリングを伴う混合精度トレーニングが、スループットを向上させつつモデル品質を維持できるか？
RQ4デコーダ/推論の最適化（例: 逐次デコーディング, キャッシュ）が、精度を犠牲にすることなく翻訳速度に与える影響は？

主な発見

Fairseq は、分散トレーニングと混合精度トレーニングを用いて、数億文規模のデータセットでの訓練を可能にする。
推論速度は FP16 で 136.0 文/秒、FP32 で 88.1 文/秒の差があり、大規模 Transformer モデルで推論速度が向上する。
FP16 推論は、検証設定で正確さの損失なしにデコード速度を54%向上させる。
Transformer base と big モデルは、それぞれ En–De で BLEU スコア 28.1 と 29.3、En–Fr で 41.1 と 43.2 を特定の設定で達成。
CNN-DailyMail における要約（抽出型ではなく）で ROUGE-1/2/L が 40.1/17.6/36.8、事前学習済みLMを使用すると 41.6/18.9/38.5 に改善。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。