Skip to main content
QUICK REVIEW

[論文レビュー] Exascale Deep Learning for Scientific Inverse Problems

Nouamane Laanait, Joshua Romero|arXiv (Cornell University)|Sep 24, 2019
Machine Learning in Materials Science参考文献 30被引用数 29
ひとこと要約

本論文は、同期分散型ディープラーニングにおける新しい通信戦略——分散型勾配削減オchestrationと計算グラフに配慮したグループ化——を導入し、Summitスーパーコンピュータ上で27,600個のNVIDIA V100 GPUを用いて、ほぼ線形スケーリング(0.93)を達成した。この手法により、0.5 PBのデータセット上で完全畳み込みニューラルネットワークの効率的学習が可能となり、エクサスケールの性能(2.15(4) EFLOPS)を達成し、電子回折データからの原子的に正確な材料再構築が可能になった。

ABSTRACT

We introduce novel communication strategies in synchronous distributed Deep Learning consisting of decentralized gradient reduction orchestration and computational graph-aware grouping of gradient tensors. These new techniques produce an optimal overlap between computation and communication and result in near-linear scaling (0.93) of distributed training up to 27,600 NVIDIA V100 GPUs on the Summit Supercomputer. We demonstrate our gradient reduction techniques in the context of training a Fully Convolutional Neural Network to approximate the solution of a longstanding scientific inverse problem in materials imaging. The efficient distributed training on a dataset size of 0.5 PB, produces a model capable of an atomically-accurate reconstruction of materials, and in the process reaching a peak performance of 2.15(4) EFLOPS$_{16}$.

研究の動機と目的

  • スーパーコンピュータ上でのデータ並列分散ディープラーニングにおいて、スケーリングの非効率が蓄積され、学習の炭素フットプリントが増加する通信ボトルネックを解決すること。
  • 計算と通信のオーバーラップを最適化する通信戦略を開発し、大規模GPUクラスタ上でほぼ線形スケーリングを達成すること。
  • 大規模な科学的データセット(0.5 PB)上で大規模ディープニューラルネットワークの学習を可能にし、材料イメージング分野における長年の逆問題を解決すること。
  • エクサスケールディープラーニングを用いて、電子顕微鏡における位相問題を含む科学的逆問題の近似解を求める可能性を実証すること。
  • スケーリングされた高性能でスケーラブルな学習を、スーパーコンピューティングインfraに統合する基盤を確立すること。

提案手法

  • ノード間での勾配集約を知的にスケジューリングすることで、同期のオーバーヘッドを最小限に抑える分散型勾配削減オchestrationを実装する。
  • モデルの計算グラフ構造に基づいて勾配テンソルをグループ化する計算グラフに配慮したグループ化を導入し、通信操作を統合する。
  • Summitスーパーコンピュータ上での階層的Allreduce戦略を採用し、ノード内通信にはNCCL、ノード間通信にはIBM Spectrum-MPIを活用する。
  • グローバルファイルシステムからのI/Oボトルネックを回避するため、ノードローカルのNVMeストレージを活用し、GPUあたりのデータサイズが増加しても線形にスケーラブルなデータロードを実現する。
  • データとモデルのレプリカを同時にスケーリングする分散学習パイプラインを設計し、各GPUが0.5 PBデータセットの固有のサブセットを処理することを保証する。
  • FP16での混合精度学習を適用し、V100 GPUのTensor Coreを活用することで、計算スループットを最大化し、通信量を削減する。

実験結果

リサーチクエスチョン

  • RQ127,000枚を超えるGPUを有するスーパーコンピュータ上で、新しい勾配削減戦略がデータ並列分散学習においてほぼ線形スケーリングを達成できるか?
  • RQ2分散型勾配オchestrationと計算グラフに配慮したグループ化の組み合わせが、計算と通信のオーバーラップをどの程度改善するか?
  • RQ3大規模な科学的イメージングデータ(0.5 PB)に対して、分散ディープラーニングがどの程度スケーリング可能であり、高いパフォーマンスとモデルの正確性を維持できるか?
  • RQ4このような大規模分散システムで学習されたディープニューラルネットワークが、電子顕微鏡における逆問題から原子的に正確な材料再構築を達成できるか?
  • RQ5データ量と計算スケールの増大が、学習済みモデルの一般化性能および再構築品質に与える影響は何か?

主な発見

  • 提案された通信戦略は、Summitスーパーコンピュータ上での27,600個のNVIDIA V100 GPUで、0.93のスケーリング効率を達成し、ほぼ線形スケーリングを実証した。
  • 学習中、FP16精度でピーク性能2.15(4) EFLOPSに達し、科学的応用分野におけるエクサスケールディープラーニングの重要なマイルストーンを達成した。
  • 4096ノード(128ノード対比)で学習したことで、電子密度再構築の平均テスト誤差が低下し、データ量と計算スケールの増加に伴いモデルの一般化性能が向上した。
  • 1024ノードで学習したモデルは、128ノードモデルよりもはっきりと正確な再構築を実現し、画像の視野全体にわたり真値に近い一致を示した。
  • ノードローカルのNVMeストレージの使用により、データロードが線形にスケーリング可能となり、グローバルファイルシステムからの直接I/Oに起因する10倍の性能低下を回避した。
  • 勾配削減技術はHorovod(Bitvector Allreduce)に統合されており、グループ化の統合はレビュー中であり、本研究を越えて広範な適用可能性を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。