QUICK REVIEW

[논문 리뷰] Near-Data Processing for Machine Learning

Hyeokjun Choe, Se-Il Lee|arXiv (Cornell University)|2017. 04. 24.

Advanced Data Storage Technologies참고 문헌 12인용 수 8

한 줄 요약

이 논문은 스토리지 내에서 직접 실행되는 확률적 경사 하강법(SGD)을 활용해 기계 학습 워크로드를 가속화하는 near-data processing(NDP) 프레임워크인 ISP-ML을 제안한다. 다중 채널 병렬 처리를 기반으로 하며, 기존의 호스트 기반 처리 방식에 비해 성능과 에너지 효율성에서 뚜렷한 향상을 보였다. 이는 기계 학습 워크로드에 대한 스토리지 내 처리의 실현 가능성을 입증한다.

ABSTRACT

In computer architecture, near-data processing (NDP) refers to augmenting the memory or the storage with processing power so that it can process the data stored therein. By offloading the computational burden of CPU and saving the need for transferring raw data in its entirety, NDP exhibits a great potential for acceleration and power reduction. Despite this potential, specific research activities on NDP have witnessed only limited success until recently, often owing to performance mismatches between logic and memory process technologies that put a limit on the processing capability of memory. Recently, there have been two major changes in the game, igniting the resurgence of NDP with renewed interest. The first is the success of machine learning (ML), which often demands a great deal of computation for training, requiring frequent transfers of big data. The second is the advent of NAND flash-based solid-state drives (SSDs) containing multicore processors that can accommodate extra computation for data processing. Sparked by these application needs and technological support, we evaluate the potential of NDP for ML using a new SSD platform that allows us to simulate in-storage processing (ISP) of ML workloads. Our platform (named ISP-ML) is a full-fledged simulator of a realistic multi-channel SSD that can execute various ML algorithms using the data stored in the SSD. For thorough performance analysis and in-depth comparison with alternatives, we focus on a specific algorithm: stochastic gradient decent (SGD), which is the de facto standard for training differentiable learning machines including deep neural networks. We implement and compare three variants of SGD (synchronous, Downpour, and elastic averaging) using ISP-ML, exploiting the multiple NAND channels for parallelizing SGD. In addition, we compare the performance of ISP and that of conventional in-host processing, revealing the advantages of ISP. Based on the advantages and limitations identified through our experiments, we further discuss directions for future research on ISP for accelerating ML.

연구 동기 및 목표

딥 뉴럴 네트워크를 포함한 기계 학습 모델 학습 과정에서 증가하는 계산 부담과 데이터 이동 오버헤드를 해결하기 위해.
전통적인 CPU 중심 처리의 한계를 극복하고, 처리 기능을 갖춘 SSD를 활용해 스토리지 내에서의 계산을 실현하기 위해.
기계 학습 알고리즘을 스토리지 내에서 직접 실행할 수 있는 현실적인 다중 채널 SSD를 모델링할 수 있는 완전한 시뮬레이터(ISP-ML)를 설계하고 평가하기 위해.
스토리지 내 처리 환경에서 동기화, Downpour, 탄성 평균화 세 가지 SGD 변종의 성능 및 확장성에 대해 조사하기 위해.
기존의 호스트 기반 처리 방식과 비교하여 스토리지 내 처리(In-Storage Processing, ISP)의 이점과 한계를 정량화하기 위해.

제안 방법

기계 학습 알고리즘을 직접 실행할 수 있는 다중 코어 프로세서를 내장한 현실적인 다중 채널 SSD를 모델링하기 위해, 완전한 시뮬레이터인 ISP-ML을 개발하였다.
스토리지 내 프로세서 유닛에 다중 SGD 변종—동기화, Downpour, 탄성 평균화—를 구현하여 병렬 학습을 가능하게 하였다.
SSD 내부의 다중 NAND 채널 간에 내재된 병렬성을 활용해 SGD 계산을 분산하고 가속화함으로써 데이터 이동을 최소화하였다.
호스트 CPU를 건너뛰고 SSD에서 직접 기계 학습 워크로드를 엔드 투 엔드로 시뮬레이션하여 계산을 수행하였다.
동일한 기계 학습 알고리즘을 사용해 스토리지 내 처리(In-Storage Processing, ISP)와 기존의 호스트 기반 처리 방식 간의 성능 및 에너지 효율성 비교를 수행하였다.
시뮬레이터를 활용해 다양한 SGD 변종과 SSD 구성에서의 확장성, 통신 오버헤드, 자원 활용도를 분석하였다.

실험 결과

연구 질문

RQ1스토리지 내 처리(In-Storage Processing, ISP)는 기존의 호스트 기반 처리 방식에 비해 확률적 경사 하강법(SGD) 학습을 얼마나 빠르게 가속화할 수 있는가?
RQ2다중 SSD 채널에 걸쳐 병렬로 실행되는 다양한 SGD 변종(동기화, Downpour, 탄성 평균화)은 각각 어떤 성능을 보이는가?
RQ3CPU 대비 SSD 기반 프로세싱 유닛에 기계 학습 계산을 오프로드할 경우 성능 및 에너지 효율성의 상호 보완적 특성은 어떠한가?
RQ4현재의 SSD 아키텍처에서 기계 학습 워크로드에 대한 near-data processing의 주요 병목 현상과 제약 조건은 무엇인가?
RQ5현대 SSD의 아키텍처적 설계, 특히 다중 코어 프로세서와 다중 채널 메모리가 스토리지 내 기계 학습 처리에 어떻게 기여하거나 제약을 가하는가?

주요 결과

스토리지 내 처리(In-Storage Processing, ISP)는 SGD를 직접 SSD 내부에서 실행함으로써 데이터 이동을 크게 줄여, 호스트 기반 처리 대비 낮은 지연과 높은 처리량을 달성하였다.
현대 SSD의 다중 채널 아키텍처는 SGD 계산의 효과적인 병렬 처리를 가능하게 하여 채널 수준의 동시성을 활용해 학습 처리량을 향상시켰다.
ISP 환경에서 탄성 평균화 SGD는 동기화 및 Downpour 변종 대비 더 뛰어난 수렴 안정성과 확장성을 보였다.
메모리 대역폭과 데이터 전송 오버헤드가 실행 시간을 지배하는 데이터 집약적인 기계 학습 워크로드에서 ISP의 성능 향상 효과가 가장 두드러졌다.
비록 장점이 있지만, SSD 내부의 제한된 처리 능력과 메모리 대역폭으로 인해 고도로 계산 집약적인 모델에서는 최대 스피드업이 제한된다.
데이터 이동 감소와 장치 내부 프로세싱의 효율적 활용 덕분에 에너지 효율성이 향상되었으며, 이는 워크로드 특성과 SSD 하드웨어 성능에 따라 달라진다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.