Skip to main content
QUICK REVIEW

[論文レビュー] Near-Data Processing for Machine Learning

Hyeokjun Choe, Se-Il Lee|arXiv (Cornell University)|Apr 24, 2017
Advanced Data Storage Technologies参考文献 12被引用数 8
ひとこと要約

本論文は、マルチチャネル並列性を活用してSSD内で直接確率的勾配降下法(SGD)を実行することにより、機械学習ワークロードの高速化を図る近接データ処理(NDP)フレームワーク、ISP-MLを提案する。評価では、従来のホスト内処理と比較して顕著な性能およびエネルギー効率の向上が示され、機械学習ワークロードにおけるストレージ内処理の実現可能性が裏付けられている。

ABSTRACT

In computer architecture, near-data processing (NDP) refers to augmenting the memory or the storage with processing power so that it can process the data stored therein. By offloading the computational burden of CPU and saving the need for transferring raw data in its entirety, NDP exhibits a great potential for acceleration and power reduction. Despite this potential, specific research activities on NDP have witnessed only limited success until recently, often owing to performance mismatches between logic and memory process technologies that put a limit on the processing capability of memory. Recently, there have been two major changes in the game, igniting the resurgence of NDP with renewed interest. The first is the success of machine learning (ML), which often demands a great deal of computation for training, requiring frequent transfers of big data. The second is the advent of NAND flash-based solid-state drives (SSDs) containing multicore processors that can accommodate extra computation for data processing. Sparked by these application needs and technological support, we evaluate the potential of NDP for ML using a new SSD platform that allows us to simulate in-storage processing (ISP) of ML workloads. Our platform (named ISP-ML) is a full-fledged simulator of a realistic multi-channel SSD that can execute various ML algorithms using the data stored in the SSD. For thorough performance analysis and in-depth comparison with alternatives, we focus on a specific algorithm: stochastic gradient decent (SGD), which is the de facto standard for training differentiable learning machines including deep neural networks. We implement and compare three variants of SGD (synchronous, Downpour, and elastic averaging) using ISP-ML, exploiting the multiple NAND channels for parallelizing SGD. In addition, we compare the performance of ISP and that of conventional in-host processing, revealing the advantages of ISP. Based on the advantages and limitations identified through our experiments, we further discuss directions for future research on ISP for accelerating ML.

研究の動機と目的

  • 深層ニューラルネットワークを含む機械学習モデルのトレーニングにおける増大する計算負荷およびデータ移動のオーバーヘッドに対処する。
  • 従来のCPU中心の処理の限界を克服し、処理能力を有するSSDを活用してストレージ内計算を実現する。
  • ストレージ上で直接機械学習アルゴリズムを実行できる、現実的なマルチチャネルSSDをモデル化する包括的なシミュレータ(ISP-ML)の設計および評価を行う。
  • ストレージ内処理下での3種類のSGDバリアント(同期型、Downpour、エラスティック平均化)の性能およびスケーラビリティを調査する。
  • ストレージ内処理(ISP)と従来のホスト内処理を比較し、NDPが機械学習ワークロードに与える利点および制限を定量的に評価する。

提案手法

  • MLアルゴリズムを直接実行できる埋め込みマルチコアプロセッサを備えた現実的なマルチチャネルSSDをモデル化する包括的シミュレータ「ISP-ML」を開発した。
  • SSDの処理ユニット内で、同期型、Downpour型、エラスティック平均化型の3種類の確率的勾配降下法(SGD)を実装し、並列トレーニングを可能にした。
  • SSD内の複数のNANDチャネルに内在する並列性を活用してSGD計算を分散化・高速化し、データ移動を削減した。
  • ホストCPUを経由せずに、SSD上で直接エンドツーエンドのMLトレーニングワークロードをシミュレートし、計算処理をSSDに移譲してデータ転送を最小限に抑えた。
  • 同じMLアルゴリズムを用いて、ストレージ内処理(ISP)と従来のホスト内処理の間で性能およびエネルギー効率を比較した。
  • シミュレータを用いて、異なるSGDバリアントおよびSSD構成におけるスケーラビリティ、通信オーバーヘッド、リソース利用効率を分析した。

実験結果

リサーチクエスチョン

  • RQ1ストレージ内処理(ISP)は、従来のホスト内処理と比較して、どの程度確率的勾配降下法(SGD)トレーニングを高速化できるか?
  • RQ2複数のSSDチャネルに並列して実行される異なるSGDバリアント(同期型、Downpour型、エラスティック平均化型)の性能は、どのように異なるか?
  • RQ3CPUと比較して、SSDベースの処理ユニットにML計算をオフロードする場合の性能およびエネルギー効率のトレードオフは何か?
  • RQ4現在のSSDアーキテクチャにおいて、機械学習ワークロードの近接データ処理の主なボトルネックおよび制限要因は何か?
  • RQ5現代のSSDのアーキテクチャ、特にマルチコアプロセッサおよびマルチチャネルメモリの設計は、ストレージ内ML処理をどのように促進または制限するか?

主な発見

  • ストレージ内処理(ISP)により、SGDをSSD内で直接実行することでデータ移動が顕著に削減され、ホストベース処理と比較して遅延が低減し、スループットが向上する。
  • 現代のSSDに内蔵されたマルチチャネルアーキテクチャにより、SGD計算の効果的な並列化が可能となり、チャネルレベルの並列性を活用してトレーニングスループットが向上する。
  • ISP環境下では、エラスティック平均化SGDが同期型およびDownpour型と比較して、収束の安定性およびチャネル間スケーラビリティに優れていることが判明した。
  • ISPによる性能向上は、メモリ帯域幅およびデータ転送オーバーヘッドが実行時間の主要要因となるデータ集約的MLワークロードで顕著に現れる。
  • 利点がある一方で、SSD内での処理能力およびメモリ帯域幅の制限により、特に計算集約的なモデルでは最大スループットに限界が生じる。
  • データ移動の削減およびデバイス内処理の効率的利用により、ISPではエネルギー効率が向上するが、その向上幅はワークロードの特性およびSSDのハードウェア能力に依存する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。