QUICK REVIEW

[論文レビュー] Data Movement Is All You Need: A Case Study of Transformer Networks

Andrei Ivanov, Nikoli Dryden|arXiv (Cornell University)|Jun 30, 2020

Advanced Neural Network Applications被引用数 3

ひとこと要約

この論文は、Transformerネットワークの学習におけるデータ移動を主なボトル neck として特定し、既存のフレームワークにおける非効率なデータレイアウトがメモリバウンドなパフォーマンスを引き起こしていることを示している。著者らは、データレイアウトを再設計し、データ移動をグローバルに最適化することで、データ移動量を最大22.91％削減し、BERTの学習において最先端のフレームワークを上回る1.30倍の高速化を達成した。

ABSTRACT

Transformer neural networks have become widely used for language modeling and sequence learning tasks, and are one of the most important machine learning workloads today. Training one is a very compute-intensive task, often taking days or weeks, and significant attention has been given to optimizing transformers. Despite this, existing implementations do not efficiently utilize GPUs. We find that data movement is the key bottleneck when training. Due to Amdahl's Law and massive improvements in compute performance, training has now become memory-bound. Further, existing frameworks use suboptimal data layouts. Using these insights, we present a recipe for globally optimizing data movement in transformers. We reduce data movement by up to 22.91% and overall achieve a 1.30x performance improvement over state-of-the-art frameworks when training BERT. Our approach is applicable more broadly to optimizing deep neural networks, and offers insight into how to tackle emerging performance bottlenecks.

研究の動機と目的

Transformerネットワークの学習におけるパフォーマンスボトル neck の根本原因を特定すること。
計算能力の進歩にもかかわらず、既存のディープラーニングフレームワークがなぜデータ移動を最適化しないのかを分析すること。
Transformerおよびより広範なディープニューラルネットワークに適用可能な、グローバルに最適化されたデータ移動戦略を開発すること。
データレイアウトとアクセスパターンを再考することで、学習におけるメモリバウンドなオーバーヘッドを低減すること。

提案手法

Amdahlの法則を適用し、データ移動が全体の学習パフォーマンスに与える影響を分析すること。
現代の学習ワークロードが、計算能力の向上とメモリ帯域幅の向上の間の不均衡により、すでにメモリバウンドになっていることの特定。
層やアテンションヘッドをまたがる重複するデータ移動を最小限に抑えるために、Transformerにおけるデータレイアウトの再考と再設計。
アテンション機構とフィードフォワード層の間で重複するメモリ転送を削減する、グローバルに最適化されたデータ移動パイプラインの実装。
最先端のフレームワークをベースラインとして、標準的なハードウェア上でのBERT学習ワークロードを用いてアプローチを検証すること。
エンドツーエンドの学習時間とデータ移動量のメトリクスを通じて、パフォーマンス向上を測定すること。

実験結果

リサーチクエスチョン

RQ1GPUの計算能力の進歩にもかかわらず、なぜ既存のTransformer実装は効率的にスケーリングできないのか？
RQ2現代のTransformerにおける学習遅延の大部分を占めるのはどの程度のデータ移動か？
RQ3データレイアウトの再編成によって、アテンションおよびフィードフォワードサブレイヤーにおけるデータ移動をどの程度削減できるか？
RQ4Transformerにおけるデータ移動をグローバルに最適化することで、どの程度のパフォーマンス向上が達成できるか？
RQ5提案された最適化戦略は、他のディープラーニングアーキテクチャにも一般化可能か？

主な発見

データ移動がTransformerの学習における主なパフォーマンスボトル neck であり、計算能力の飛躍的向上にもかかわらず、学習がメモリバウンドになっている。
既存のフレームワークでは、層やアテンションヘッドをまたがる重複した非効率なデータ転送を引き起こす、非最適なデータレイアウトが採用されている。
提案されたグローバルなデータ移動最適化により、BERT学習中におけるデータ移動量が最大22.91％削減された。
エンドツーエンドのBERT学習において、最先端のフレームワークを上回る1.30倍のパフォーマンス向上が達成された。
本アプローチは一般化可能であり、Transformerをはるかに超えた新規ディープラーニングワークロードの最適化に役立つインサイトを提供する。
結果から、メモリバウンドワークロードでは、パフォーマンス向上を実現するためのデータレイアウトのアーキテクチャ的変更が不可欠であることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。