[논문 리뷰] NeuralPower: Predict and Deploy Energy-Efficient Convolutional Neural Networks
NeuralPower는 GPU에서 CNN의 전력, 런타임, 에너지를 예측하기 위한 계층별 다항 회귀 프레임워크를 제공하여 학습 전 에너지 인식형 아키텍처 선택을 가능하게 합니다. 또한 정확도와 에너지 효율의 균형을 맞추기 위한 Energy-Precision Ratio를 도입합니다.
"How much energy is consumed for an inference made by a convolutional neural network (CNN)?" With the increased popularity of CNNs deployed on the wide-spectrum of platforms (from mobile devices to workstations), the answer to this question has drawn significant attention. From lengthening battery life of mobile devices to reducing the energy bill of a datacenter, it is important to understand the energy efficiency of CNNs during serving for making an inference, before actually training the model. In this work, we propose NeuralPower: a layer-wise predictive framework based on sparse polynomial regression, for predicting the serving energy consumption of a CNN deployed on any GPU platform. Given the architecture of a CNN, NeuralPower provides an accurate prediction and breakdown for power and runtime across all layers in the whole network, helping machine learners quickly identify the power, runtime, or energy bottlenecks. We also propose the "energy-precision ratio" (EPR) metric to guide machine learners in selecting an energy-efficient CNN architecture that better trades off the energy consumption and prediction accuracy. The experimental results show that the prediction accuracy of the proposed NeuralPower outperforms the best published model to date, yielding an improvement in accuracy of up to 68.5%. We also assess the accuracy of predictions at the network level, by predicting the runtime, power, and energy of state-of-the-art CNN architectures, achieving an average accuracy of 88.24% in runtime, 88.34% in power, and 97.21% in energy. We comprehensively corroborate the effectiveness of NeuralPower as a powerful framework for machine learners by testing it on different GPU platforms and Deep Learning software tools.
연구 동기 및 목표
- 다양한 GPU 플랫폼에 배포를 위해 학습 전에 CNN 추론 에너지를 예측해야 할 필요성을 제시한다.
- 서비스 중에 CNN의 전력, 런타임, 에너지를 추정하기 위한 계층별 예측 프레임워크를 개발한다.
- 런타임, 전력, 또는 에너지 병목 현상을 신속하게 식별하여 에너지 효율성을 위한 아키텍처 탐색을 안내한다.
- 다양한 CNN 아키텍처와 GPU 플랫폼에 걸친 지표와 검증을 제안하여 정확도와 일반화를 입증한다.
제안 방법
- 희소 다항 회귀를 사용하여 합성곱, 완전 연결, 풀링 계층의 계층 수준 전력과 런타임을 모델링하는 계층적 NeuralPower 프레임워크를 제안한다.
- 두 부분으로 구성된 계층 모델을 사용한다: (1) 계층 구성 특징에 대한 일반 다항 항, (2) 메모리 접근 및 FLOPs와 같은 연산을 포착하는 특수 항; Lasso와 교차 검증을 적용하여 모델 항을 선택한다.
- 계층 수준 모델을 네트워크 수준 예측으로 확장하여 각 계층 런타임을 합산하고 계층별 전력 및 런타임 추정치를 사용해 에너지를 계산한다.
- 고정된 GPU 상태에서 Nvidia Titan X에서 CNN 아키텍처 세트를 프로파일링하고 TensorFlow 및 nvidia-smi 측정을 통해 모델을 학습시키는 데이터셋을 수집한다.
- 다수의 CNN(VGG, NIN, CIFAR nets 등)에 걸쳐 실제 측정값과 네트워크 수준 예측을 비교 평가하여 런타임, 전력, 에너지 정확도를 정량화한다.
- 아키텍처 선택 시 분류 정확도와 에너지 소비 간의 균형을 맞추기 위한 지표로 Energy-Precision Ratio를 도입한다.
실험 결과
연구 질문
- RQ1다양한 아키텍처와 프레임워크에 걸쳐 계층 수준의 다항 회귀가 CNN의 각 계층 전력과 런타임을 정확하게 예측할 수 있는가?
- RQ2다양한 CNN에 대해 NeuralPower가 GPU 플랫폼에서 네트워크 수준의 런타임, 전력, 에너지를 얼마나 정확하게 예측할 수 있는가?
- RQ3Energy-Precision Ratio가 과도한 정확도 손실 없이 에너지 효율적인 CNN 아키텍처 선택을 효과적으로 이끄는가?
주요 결과
- NeuralPower는 테스트된 CNN들에서 네트워크 수준 런타임 정확도 약 88.24%, 전력 정확도 약 88.34%, 에너지 예측 정확도 약 97.21%를 달성한다.
- 희소 다항 회귀를 이용한 계층 수준 모델이 런타임 예측에서 이전의 최첨단 Paleo 모델을 능가하며, RMSE/RMSPE 지표에서 최대 68.5%의 개선을 보인다.
- 계층 수준의 전력 예측은 합성곱, 풀링 및 완전 연결 계층 전반에서 RMSPE가 9% 미만으로 나타난다.
- 네트워크 수준 에너지 예측은 계층별 실제값과 비교해 평균 RMSPE가 약 2.79%에 달한다.
- 이 프레임워크는 네트워크 내 런타임, 전력, 에너지 병목 현상을 식별하기 위한 계층별 상세 분해를 제공한다.
- Energy-Precision Ratio는 정확도와 에너지를 균형 있게 조정하는 조정 가능한 지표를 제공하여 다양한 애플리케이션 요구사항에 맞춘 에너지 효율적인 CNN 선택을 안내한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.