[論文レビュー] Faster Neural Network Training with Data Echoing
論文はデータ echoing という、上流のデータ処理ステージの出力を再利用してアイドル化したアクセラレータ容量を回収し、上流の作業を削減してトレーニングを高速化しつつ最終的な性能を保持する方法を導入します。ネットワーク経由でデータを読み込む場合の ResNet-50 on ImageNet におけるウォールクロック速度の notable な speedup(例: 3.25x)を達成します。
In the twilight of Moore's law, GPUs and other specialized hardware accelerators have dramatically sped up neural network training. However, earlier stages of the training pipeline, such as disk I/O and data preprocessing, do not run on accelerators. As accelerators continue to improve, these earlier stages will increasingly become the bottleneck. In this paper, we introduce "data echoing," which reduces the total computation used by earlier pipeline stages and speeds up training whenever computation upstream from accelerators dominates the training time. Data echoing reuses (or "echoes") intermediate outputs from earlier pipeline stages in order to reclaim idle capacity. We investigate the behavior of different data echoing algorithms on various workloads, for various amounts of echoing, and for various batch sizes. We find that in all settings, at least one data echoing algorithm can match the baseline's predictive performance using less upstream computation. We measured a factor of 3.25 decrease in wall-clock time for ResNet-50 on ImageNet when reading training data over a network.
研究の動機と目的
- NN トレーニングにおいてアクセラレータがボトルネックになるときに上流のデータ処理計算を削減する動機付け。
- データ echoing を、前段パイプラインのデータを再利用してアイドル化したアクセラレータ容量を回収する、単純で安価な方法として提案。
- さまざまなワークロードに対して、異なる echoing 戦略がトレーニング効率と予測性能に与える影響を系統的に評価する。
提案手法
- ボトleneck パイプライン段の後に echoing ステージを挿入して前段の出力を繰り返す。
- echoing ファクター e を形式化し、one-upstream-plus-e-downstream-step の時間を max(t_upstream, e * t_downstream) と導出する。
- 例示 echoing とバッチ echoing のバリアントを比較し、シャッフルや augment は性能に与える影響を分析する。
- 固定された fresh-exampl サ budgets の下で、準乱探索を用いてハイパーパラメータを調整しアウトオブサンプル指標を目標値に到達させる。
- Transformer(LM1B、Common Crawl)、ResNet(CIFAR-10、ImageNet)、SSD(COCO)を、バッチサイズを変えて評価する。
実験結果
リサーチクエスチョン
- RQ1データ echoing は、さまざまなモデルとデータセットで targets のアウトオブサンプル性能へ到達するために必要な fresh training examples の数を削減できるか。
- RQ2echoing の挿入点は性能と upstream/downstream 作業量にどう影響するか。
- RQ3echoing ファクター、バッチサイズ、シャッフルは予測性能とウォールタイムにどのような影響を与えるか。
- RQ4データ echoing は、よく調整されたベースラインと比較して最終的な予測性能を維持できるか。
- RQ5上流が支配的なパイプラインにおいて、データ echoing はどれだけのウォールタイムの速度アップを提供できるか。
主な発見
- データ echoing は、ResNet-50 でのネットワーク経由データ読み込み時を除き、すべてのケースで target out-of-sample 性能に到達するために必要な fresh examples の数を削減した。
- より早い挿入点(augmentation の前)は、一般に後の点より fresh examples が少なくて済む。
- echoing は fresh examples の削減量に比例したウォールタイムの速度アップをもたらし、ImageNet の ResNet-50 でネットワーク経由データ読み込みの場合最大で 3.25x の速度アップが観測された。
- echoing の有用性は echoing ファクターとバッチサイズに依存する。LM1B(1024 バッチ)で最大で 4–8 程度の実現可能なファクターがあり、4096 バッチではさらに大きくなるが、閾値を超えると収益は減少する。
- echoed データのシャッフルが多いほど、例示 echoing とバッチ echoing の両方で性能が向上する。
- 固定された fresh データ予算の下で、すべての echoing バリアントがベースラインと同等以上の最終的なアウトオブサンプル性能を達成した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。