Skip to main content
QUICK REVIEW

[논문 리뷰] Measuring the Energy Consumption and Efficiency of Deep Neural Networks: An Empirical Analysis and Design Recommendations

Charles Tripp, Jordan Perr‐Sauer|arXiv (Cornell University)|2024. 03. 13.
Smart Grid Energy Management인용 수 8
한 줄 요약

이 논문은 노드 단위 와트미터를 사용해 밀집 완전 연결 네트워크의 학습 에너지 사용을 실증적으로 측정하고, BUTTER-E 데이터셋을 도입하며, 캐시/메모리 효과를 분석하고, 에너지 효율적인 신경망을 위한 에너지 모델 및 설계 권고안을 제시한다.

ABSTRACT

Addressing the so-called ``Red-AI'' trend of rising energy consumption by large-scale neural networks, this study investigates the actual energy consumption, as measured by node-level watt-meters, of training various fully connected neural network architectures. We introduce the BUTTER-E dataset, an augmentation to the BUTTER Empirical Deep Learning dataset, containing energy consumption and performance data from 63,527 individual experimental runs spanning 30,582 distinct configurations: 13 datasets, 20 sizes (number of trainable parameters), 8 network ``shapes'', and 14 depths on both CPU and GPU hardware collected using node-level watt-meters. This dataset reveals the complex relationship between dataset size, network structure, and energy use, and highlights the impact of cache effects. We propose a straightforward and effective energy model that accounts for network size, computing, and memory hierarchy. Our analysis also uncovers a surprising, hardware-mediated non-linear relationship between energy efficiency and network design, challenging the assumption that reducing the number of parameters or FLOPs is the best way to achieve greater energy efficiency. Highlighting the need for cache-considerate algorithm development, we suggest a combined approach to energy efficient network, algorithm, and hardware design. This work contributes to the fields of sustainable computing and Green AI, offering practical guidance for creating more energy-efficient neural networks and promoting sustainable AI.

연구 동기 및 목표

  • 'Red AI' 트렌드 아래 신경망 학습에서 에너지 소비를 이해해야 하는 긴급한 필요성에 대한 동기를 부여한다.
  • 다수 구성에서 실제 에너지와 성능을 포착하는 BUTTER-E 데이터셋을 구축하고 공개한다.
  • 하이퍼파라미터, 네트워크 토폴로지, 하드웨어 간의 상호작용이 에너지 사용에 어떤 영향을 미치는지 특성화한다.
  • 네트워크 규모, 계산, 메모리 계층구조를 고려한 간단한 에너지 모델을 개발하고 에너지 효율적 설계의 시사점을 논의한다.
  • 에너지 효율적인 아키텍처, 알고리즘, 하드웨어를 위한 가이드를 제시하여 Green AI를 촉진한다.

제안 방법

  • HPC 시스템에서 노드 단위 와트미터를 사용한 에너지 측정을 수집한다(CPU 및 GPU 실행).
  • BUTTER-E 데이터셋을 63,527건의 실행으로 30,582개의 구성을 포함하도록 만들고 확장한다(13개 데이터셋, 20개 매개변수 크기, 8개의 모양, 14개의 깊이).
  • 비동질 노드 간의 유휴 전력 차이 및 오버헤드를 제거하여 에너지 측정치를 표준화한다.
  • 원시 전력 데이터를 필터링하고 품질 관리하여 스케줄러 데이터와 정렬된 전력 흔적을 통해 실행 수준의 에너지 및 시간 통계를 정확히 산출한다.
  • 작업 집합 정의와 메모리 계층 고려를 통해 집합의 집계 경향 및 캐시 관련 효과를 분석한다.
  • 하이퍼파라미터, 작업 집합 크기, 그리고 캐시 경계를 연결하는 하드웨어 인지 에너지 모델을 데이터에 맞춰 피팅한다.
Figure 1 : (a) The energy consumption (left axis) and corresponding carbon emissions given the average energy generation mix in the United States (right axis) incurred by training published AI models has increased dramatically over the last two decades, the so-called “Red AI Era.” The AI System Tota
Figure 1 : (a) The energy consumption (left axis) and corresponding carbon emissions given the average energy generation mix in the United States (right axis) incurred by training published AI models has increased dramatically over the last two decades, the so-called “Red AI Era.” The AI System Tota

실험 결과

연구 질문

  • RQ1데이터셋 크기, 네트워크 토폴로지, 깊이가 학습 데이터당 및 에포크당 에너지 소비에 어떤 영향을 미치는가?
  • RQ2하드웨어 요소(CPU vs GPU, 캐시 크기)가 신경망 학습의 에너지 효율성에 어느 정도 매개 역할을 하는가?
  • RQ3메모리 계층구조와 캐시 효과를 고려할 때 에너지, FLOPs, 매개변수 수 사이에는 어떤 비선형 관계가 존재하는가?
  • RQ4다양한 구성에서 완전 연결 네트워크의 에너지 사용의 핵심 동인을 포착하는 간단한 에너지 모델이 존재하는가?
  • RQ5에너지 효율적인 네트워크, 알고리즘, 하드웨어를 위한 설계 권고안은 무엇인가?

주요 결과

  • 매개변수 수와 FLOPs가 증가함에 따라 학습 데이터당 에너지가 비선형적으로 증가하며, 캐시 및 메모리 계층구조가 중요한 역할을 한다.
  • GPU 기반 학습은 특정 매개변수 수를 넘어서야 에너지 소모가 데이터당 더 많이 증가하는 경향을 보이며, CPU는 캐시 및 에포크당 오버헤드 차이로 인해 다른 비선형 패턴을 보인다.
  • 깊이가 높아질수록 데이터당 에너지가 증가하는 경향이 있으며, 얕은 네트워크의 경우 소 깊이에서 GPU가 더 에너지 효율적일 수 있고 깊이가 증가할수록 GPU의 효율이 높아진다.
  • 약 2^20 매개변수( GPU L2 캐시 용량 근처)에서 데이터당 에너지 동작이 더 선형적인 거동으로 전이되며, 캐시 효과를 반영한다.
  • 네트워크 토폴로지, 캐시 상호작용, 작업 집합 크기를 반영하는 실험적으로 근거된 에너지 모델이 관찰된 데이터에 적합하며 캐시 의식 알고리즘/하드웨어 설계의 중요성을 부각한다.
  • 본 연구는 Red AI 트렌드를 다루기 위한 에너지 효율적 아키텍처, 알고리즘, 하드웨어에 대한 실행 가능한 통찰을 제공한다.
Figure 2 : Histograms (on logarithmic axes) showing the quantity and location of data filtered out for this analysis. The filters reject 241 runs, which is approximately 0.6% of the total number of runs.
Figure 2 : Histograms (on logarithmic axes) showing the quantity and location of data filtered out for this analysis. The filters reject 241 runs, which is approximately 0.6% of the total number of runs.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.