Skip to main content
QUICK REVIEW

[논문 리뷰] Convolutions Predictable Offloading to an Accelerator: Formalization and Optimization

Husson, Benjamin, Belcaïd, Mohammed|arXiv (Cornell University)|2026. 03. 23.
Advanced Neural Network Applications인용 수 0
한 줄 요약

본 논문은 제한된 온칩 메모리를 가진 가속기에 대해 합성곱 계층의 전략 기반 오프로드 프레임워크를 형식화하고, 엔드투엔드 기간을 최적화하기 위해 ILP 기반 방법과 Python 시뮬레이터를 제시한다.

ABSTRACT

Convolutional neural networks (CNNs) require a large number of multiply-accumulate (MAC) operations. To meet real-time constraints, they often need to be executed on specialized accelerators composed of an on-chip memory and a processing unit. However, the on-chip memory is often insufficient to store all the data required to compute a CNN layer. Thus, the computation must be performed in several offloading steps. We formalise such sequences of steps and apply our formalism to a state of the art decomposition of convolutions. In order to find optimal strategies in terms of duration, we encode the problem with a set of constraints. A Python-based simulator allows to analyse in-depth computed strategies.

연구 동기 및 목표

  • 제한된 온칩 메모리를 가진 가속기에서 실시간이고 안전-critical한 CNN 배포를 촉진한다.
  • 전략의 개념을 메모리 관리 단계의 시퀀스로 형식화한다.
  • 합성곱 오프로드를 지속 시간 최소화를 위한 ILP 최적화 문제로 매핑한다.
  • 오프로드 전략을 분석하고 시각화하기 위한 Python 기반 시뮬레이터를 제공한다.
  • 하드웨어 아키텍처 전반에 걸친 적용 가능성을 시연하고 효율적 실행을 위한 패치로 합성곱을 분해한다.

제안 방법

  • 입력, 커널, 출력에 대한 명시적 메모리 집합을 포함하는 n단계 계산으로 전략의 형식적 모델을 정의한다.
  • 각 단계를 온칩 메모리 사용량이 정량화된 메모리 연산과 계산의 시퀀스로 모델링한다.
  • 2D 합성곱을 패치(X)와 패치 그룹화(g_i)로 분해하여 단계적 오프로드를 가능하게 한다.
  • S1-기준선을 형식화하고 가속기 용량 제약 하에서 패치 적재 순서와 그룹 크기를 최적화하여 S1을 도출한다.
  • 전략을 메모리 및 데이터 재사용 제약 하에서 엔드투엔드 지속 시간을 최소화하는 ILP 형태로 변환한다.
  • 사용자 정의 전략을 일반 가속기에서 실행하고 데이터 이동을 시각화하는 Python 시뮬레이터를 개발한다.

실험 결과

연구 질문

  • RQ1합성곱 오프로드를 가속기에 대해 메모리 관리된 단계의 시퀀스로 어떻게 형식화할 수 있는가?
  • RQ2제한된 온칩 메모리 하에서 주어진 가속기와 합성곱 계층에 대한 최적 전략(지속 시간 측면)은 무엇인가?
  • RQ3메모리 제약을 준수하면서 지속 시간을 줄이기 위해 S1- baseline 전략을 어떻게 개선할 수 있는가?
  • RQ4ILP 기반 최적화와 시뮬레이터가 아키텍처 간에 서로 다른 오프로드 전략을 효과적으로 비교·검증할 수 있는가?

주요 결과

  • 메모리 트랜잭션, 점유 용량(footprint), 데이터 재사용을 단계 간에 포착하는 형식적 전략 프레임워크가 제시된다.
  • 주어진 가속기에 대해 최적의 단계 그룹화 및 데이터 적재를 찾기 위한 ILP 형식이 제안된다.
  • 계산된 전략을 검증하고 데이터 이동을 추적하기 위한 Python 기반 시뮬레이터가 구축되었다.
  • 메모리 계층 가정의 조정을 통해 이 접근법은 여러 가속기 패러다임(Eyeriss 유사, TMMA, VTA 등)에 적용된다.
  • S1 개선은 패치 그룹화와 고정된 커널 거주가 엔드투엔드 지속 시간에 어떤 영향을 미치는지 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.