QUICK REVIEW

[論文レビュー] Importance of Data Loading Pipeline in Training Deep Neural Networks

Mahdi Zolnouri, Xinlin Li|arXiv (Cornell University)|Apr 1, 2020

Advanced Neural Network Applications参考文献 18被引用数 6

ひとこと要約

この論文は、データロードパイプラインが深層ニューラルネットワークの学習に与える影響を調査し、バイナリデータ形式とNVIDIA DALIを用いてデータ読み込みと増幅を高速化する手法を比較している。これらのツールを用いてデータロードを最適化することで、データ増幅がI/Oおよび処理のオーバーヘッドを増加させる大規模なモデル学習において、学習を20–40%高速化することに成功した。

ABSTRACT

Training large-scale deep neural networks is a long, time-consuming operation, often requiring many GPUs to accelerate. In large models, the time spent loading data takes a significant portion of model training time. As GPU servers are typically expensive, tricks that can save training time are valuable.Slow training is observed especially on real-world applications where exhaustive data augmentation operations are required. Data augmentation techniques include: padding, rotation, adding noise, down sampling, up sampling, etc. These additional operations increase the need to build an efficient data loading pipeline, and to explore existing tools to speed up training time. We focus on the comparison of two main tools designed for this task, namely binary data format to accelerate data reading, and NVIDIA DALI to accelerate data augmentation. Our study shows improvement on the order of 20% to 40% if such dedicated tools are used.

研究の動機と目的

大規模なディープラーニング学習において、特に計算集約的なデータ増幅が適用される状況で、増大するデータロードのボトルneckを解消すること。
バイナリデータ形式やNVIDIA DALIのような専用ツールが、実世界の応用において学習時間を短縮できるかどうかを調査すること。
バイナリデータ形式とNVIDIA DALIの両者が、データロードおよび増幅パイプラインの高速化においてもたらすパフォーマンス向上を比較すること。
大規模モデルにおける効率的なパイプラインが、全体の学習効率に与える影響を定量化すること。

提案手法

学習データの効率的な保存および読み込みを実現するため、バイナリデータ形式を採用し、モデル学習中のI/Oオーバーヘッドを低減すること。
NVIDIA DALIを活用して、回転、ノイズ追加、リサイズなどのデータ増幅処理をGPU上でオフロードおよび高速化すること。
最適化されたデータロードパイプラインを適用した場合としない場合の両方で、学習時間をベンチマークし、パフォーマンス向上を測定すること。
バイナリデータ形式とDALIアクセceleratedパイプラインを用いた場合のエンドツーエンドの学習スループットおよびGPU利用率を比較すること。
実世界のディープラーニングワークロードにおいて、データロードおよび増幅が合計学習時間に占める相対的寄与度を測定すること。
両ツールのスケーラビリティを、異なるモデルサイズおよびデータ増幅の複雑さのレベルにおいて分析すること。

実験結果

リサーチクエスチョン

RQ1大規模な深層ニューラルネットワークにおいて、データロードの遅延は合計学習時間にどの程度寄与しているか？
RQ2バイナリデータ形式は、ディープラーニング学習におけるデータロードのオーバーヘッドをどの程度低減できるか？
RQ3CPUベースの方法と比較して、NVIDIA DALIはデータ増幅処理の高速化にどの程度効果的か？
RQ4バイナリデータ形式とNVIDIA DALIを併用した場合の統合的なパフォーマンス向上はどの程度か？
RQ5専用ツールを用いてデータロードパイプラインを最適化した場合、学習時間にどの程度の測定可能な高速化が得られるか？

主な発見

特に広範なデータ増幅が適用される場合、データロードは大規模な深層ニューラルネットワークの学習時間の大きな部分を占めている。
バイナリデータ形式を用いることでI/Oオーバーヘッドが低減され、データ読み込みが高速化され、学習サイクルが短縮される。
NVIDIA DALIは、データ増幅処理をGPUにオフロードすることで、CPUのボトルneckを最小限に抑え、処理を高速化する。
バイナリデータ形式とNVIDIA DALIを組み合わせることで、合計学習時間が20–40%短縮される。
複雑なデータ増幅パイプラインを必要とする実世界の応用において、このパフォーマンス向上が顕著に現れる。
データロードパイプラインの最適化により、GPUの効率的利用が図られ、モデルの収束がより速く達成される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。