Skip to main content
QUICK REVIEW

[論文レビュー] Deep Learning at 15PF: Supervised and Semi-Supervised Classification for Scientific Data

Thorsten Kurth, Jian Zhang|arXiv (Cornell University)|Aug 17, 2017
Algorithms and Data Compression参考文献 38被引用数 19
ひとこと要約

本論文は、Intel Xeon-PhiベースのHPCクラスタ上で、同期・非同期通信をハイブリッドに組み合わせた戦略を用いて、9,600ノードにわたるスケーリングを実現した、科学的データ向け初の15-PetaFLOPディープラーニングシステムを提示する。1000万枚の画像からなる高エネルギー物理学データセットにおいて最先端の分類精度を達成し、15TBの気象データセットから半教師あり学習を用いて極端な気象パターンを効果的に局在化した。

ABSTRACT

This paper presents the first, 15-PetaFLOP Deep Learning system for solving scientific pattern classification problems on contemporary HPC architectures. We develop supervised convolutional architectures for discriminating signals in high-energy physics data as well as semi-supervised architectures for localizing and classifying extreme weather in climate data. Our Intelcaffe-based implementation obtains $\sim$2TFLOP/s on a single Cori Phase-II Xeon-Phi node. We use a hybrid strategy employing synchronous node-groups, while using asynchronous communication across groups. We use this strategy to scale training of a single model to $\sim$9600 Xeon-Phi nodes; obtaining peak performance of 11.73-15.07 PFLOP/s and sustained performance of 11.41-13.27 PFLOP/s. At scale, our HEP architecture produces state-of-the-art classification accuracy on a dataset with 10M images, exceeding that achieved by selections on high-level physics-motivated features. Our semi-supervised architecture successfully extracts weather patterns in a 15TB climate dataset. Our results demonstrate that Deep Learning can be optimized and scaled effectively on many-core, HPC systems.

研究の動機と目的

  • 多数コアを有するHPCシステム上で、科学的パターン分類を可能にするスケーラブルなディープラーニングを実現すること。
  • 単一ノードの能力を超える大規模かつ多次元の科学的データセット(TB〜PBレベル)に対してディープニューラルネットワークを効果的に学習させる課題に対処すること。
  • 高エネルギー物理学および気象科学のワークロードに特化した、教師ありおよび半教師ありのディープラーニングアーキテクチャの開発と最適化を行うこと。
  • ノードグループ間でのハイブリッド通信戦略を用いて、HPCプラットフォーム上で高いパフォーマンスと強スケーリングを達成すること。
  • ディープラーニングが、現代の多数コアHPCシステム上で、分野特化型の科学的応用に効果的に最適化されスケーリング可能であることを実証すること。

提案手法

  • Xeon-Phiアーキテクチャに最適化されたカスタムIntelCaffeベースのディープラーニングフレームワークを実装し、1ノードあたり約2 TFLOP/sの性能を達成した。
  • ハイブリッド通信戦略を採用:ノードグループ内では同期通信、グループ間では非同期通信を実施し、停止時間を低減し、スケーラビリティを向上させた。
  • 高エネルギー物理学イベントの分類に、教師あり畳み込みニューラルネットワーク(CNN)アーキテクチャを用い、3チャンネル(カリブレーターおよびトラックデータ)の2次元検出器画像に基づいた分析を実施した。
  • 半教師あり学習アーキテクチャを適用し、15TBの気象データセットから極端な気象パターンを抽出し、ラベルなしデータを活用して局在化と分類の精度を向上させた。
  • 高エネルギー物理学のデータを、物理学的動機付けに基づく選別処理により前処理し、シミュレートされたLHC衝突から1,000万イベントの挑戦的トレーニングセットを構築した。
  • 高エネルギー物理学における信号およびバックグラウンドクラスの両方のリアルなイベントデータを生成するために、高速シミュレーションツール(PythiaおよびDelphes)を用いた。

実験結果

リサーチクエスチョン

  • RQ1科学的データ分類のため、HPCシステム上で15-PetaFLOPの性能にディープラーニングを効果的にスケーリングできるか?
  • RQ2ハイブリッド同期・非同期通信戦略は、大規模ディープラーニング学習におけるスケーラビリティとパフォーマンスをどのように向上させるか?
  • RQ3ディープラーニングアーキテクチャは、高エネルギー物理学のイベント分類において、従来の物理学的動機付けに基づく特徴選択を上回ることができるか?
  • RQ4半教師あり学習は、大規模な気象シミュレーションデータセットから極端な気象パターンを効果的に同定できるか?
  • RQ5多数コアHPCプラットフォーム上で、科学的ワークロードに向けたディープラーニングのパフォーマンスと精度のトレードオフは何か?

主な発見

  • 9,600ノードのXeon-Phiノードで学習を実行した際、ピーク性能は15.07 PFLOP/s、持続性能は13.27 PFLOP/sに達し、15-PetaFLOPレベルへの効果的なスケーリングを実証した。
  • 教師ありHEPモデルは、1,000万枚の画像からなるデータセットにおいて、高レベルの物理学的特徴に基づく手法を上回る最先端の分類精度を達成した。
  • 半教師あり気象モデルは、15TBの気象データセットから極端な気象パターンを効果的に抽出・局在化し、大規模な科学的分析への実用性を示した。
  • IntelCaffeベースの実装は、1つのCori Phase-II Xeon-Phiノードあたり約2 TFLOP/sの性能を達成し、効率的な単一ノード性能を実現した。
  • ハイブリッド通信戦略により、9,600ノードにわたる強スケーリングが実現され、持続性能は11.41〜13.27 PFLOP/sに達し、大規模学習に向けたアプローチの有効性を示した。
  • 結果として、多数コアHPCプラットフォームが、分野特化型の科学的応用におけるディープラーニングに効果的に活用可能であることが実証され、科学的発見の新たな道筋が開かれた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。