[논문 리뷰] Performance Analysis of Edge and In-Sensor AI Processors: A Comparative Review
본 논문은 초저전력 엣지 AI 프로세서를 조사하고 GAP9, STM32N6, Sony IMX500에서 PicoSAM2를 벤치마크하여 지연(latency), 사이클당 MAC(MAC/cycle), MAC/J, 및 에너지-지연 곱(EDP)을 비교한다.
This review examines the rapidly evolving landscape of ultra-low-power edge processors, covering heterogeneous Systems-on-Chips (SoCs), neural accelerators, near-sensor and in-sensor architectures, and emerging dataflow and memory-centric designs. We categorize commercially available and research-grade platforms according to their compute paradigms, power envelopes, and memory hierarchies, and analyze their suitability for always-on and latency-critical Artificial Intelligence (AI) workloads. To complement the architectural overview with empirical evidence, we benchmark a 336 million Multiply-Accumulate (MAC) segmentation model (PicoSAM2) on three representative processors: GAP9, leveraging a multi-core RISC-V architecture augmented with hardware accelerators; the STM32N6, which pairs an advanced ARM Cortex-M55 core with a dedicated neural architecture accelerator; and the Sony IMX500, representing in-sensor stacked-Complementary Metal-Oxide-Semiconductor (CMOS) compute. Collectively, these platforms span MCU-class, embedded neural accelerator, and in-sensor paradigms. The evaluation reports latency, inference efficiency, energy efficiency, and energy-delay product. The results show a clear divergence in hardware behavior, with the IMX500 achieving the highest utilization (86.2 MAC/cycle) and the lowest energy-delay product, highlighting the growing significance and technological maturity of in-sensor processing. GAP9 offers the best energy efficiency within microcontroller-class power budgets, and the STM32N6 provides the lowest raw latency at a significantly higher energy cost. Together, the review and benchmarks provide a unified view of the current design directions and practical trade-offs that are shaping the next generation of ultra-low-power and in-sensor AI processors.
연구 동기 및 목표
- 엣지에서의 지연, 프라이버시 및 센싱 요구로 인한 온-디바이스 에너지 효율적인 AI 필요성에 대한 동기를 제시한다.
- 초저전력 엣지 프로세서의 풍경(MCU급, 임베디드 가속기, 인-센서 컴퓨트 포함)을 특성화한다.
- 현실적인 워크로드에서 아키텍처 간 설계 트레이드오프를 드러내는 경험적 벤치마크를 제공한다.
- 항상 작동 및 지연 критical AI 워크로드에 대한 아키텍처 선택에 대한 가이드를 제공한다.
제안 방법
- 컴퓨트 패러다임, 전력 예산, 메모리 계층구조별로 상용 가능 및 연구용 엣지 AI 플랫폼을 조사한다.
- 세 프로세서(GAP9, STM32N6, IMX500)에서 336 MMAC PicoSAM2 세그먼테이션 모델을 사이클 정확 프로파일링 및 전력 측정을 통해 벤치마크한다.
- 4가지 하드웨어 중심 지표(추론당 지연, MAC/cycle, MAC/J, Energy–Delay Product(EDP))를 평가한다.
- 아키텍처 간 활용도, 데이터 흐름 효율성 및 메모리 병목 현상에 대한 정성적 및 정량적 통찰을 보고한다.
![Figure 1: Peak performance in TOPS vs. power consumption of publicly announced AI accelerators and processors. Data are from [ 10 , 11 , 12 , 13 ] .](https://ar5iv.labs.arxiv.org/html/2603.08725/assets/x1.png)
실험 결과
연구 질문
- RQ1대표 세그먼테이션 모델을 실행할 때 이질적인 초저전력 엣지 프로세서의 실질적 성능 및 에너지 효율 특성은 어떠한가?
- RQ2인-센서, MCU급 및 임베디드 신경망 가속기가 활용도, 지연, 추론당 에너지 및 EDP 측면에서 어떻게 비교되는가?
- RQ3메모리 계층구조, 데이터 흐름, 데이터 이동과 같은 아키텍처 요인이 200 mW 이하 예산에서 온-디바이스 AI 성능에 가장 큰 영향을 미치는가?
주요 결과
| 하드웨어 플랫폼 | 피크 성능(TOps) | 전력(W) | 정밀도 | 하드웨어 아키텍처 | 효율(TOPS/W) |
|---|---|---|---|---|---|
| Netcast | 1.00E+01 | 0.001 | int8 | Dataflow ASIC | 1.00E+04 |
| Ergo | 4.00E+00 | 0.073 | int8 | Tensor ASIC | 5.48E+01 |
| Ethos N77 | 4.10E+00 | 0.800 | int8 | Tensor ASIC | 5.13E+00 |
| MX3 | 5.00E+00 | 1.000 | fp16 | Manycore ASIC | 5.00E+00 |
| Tianjic | 1.21E+00 | 0.950 | int8 | Neuromorphic | 1.27E+00 |
| AML200 | 2.00E+00 | 0.100 | int8 | Analog In-Memory | 2.00E+01 |
| GAP9 | 1.51E-01 | 0.0640 | int8 | RISC-V Manycore | 2.36E+00 |
| AIStorm | 2.50E+00 | 0.225 | int8 | Analog Compute-in-Sensor | 1.11E+01 |
| Gyrfalcon | 2.80E+00 | 0.224 | int8 | Manycore ASIC | 1.25E+01 |
| AML100 | 4.00E-01 | 0.020 | int8 | Analog In-Memory | 2.00E+01 |
| STM32N6 | 6.00E-01 | 0.200 | int8 | ARM Cortex-M55 + NPU | 3.00E+00 |
| Cortex-M85 (STM32V8/RA8) | 1.30E-01 | 0.250 | int8 | ARM Cortex-M85 | 5.20E-01 |
| NDP101 | 2.00E-01 | 0.010 | int4 | RISC-V + HW Acc | 2.00E+01 |
| NDP200 | 6.20E-03 | 0.010 | int8 | RISC-V + HW Acc | 6.20E-01 |
| NDP250 | 3.00E-02 | 0.100 | int8 | RISC-V + HW Acc | 3.00E-01 |
| IMX500 | 7.952E-02 | 0.016 | int8 | Manycore ASIC | 4.97E+00 |
| Max 78000 | 5.60E-02 | 0.028 | int8 | Tensor Accelerator MCU | 2.00E+00 |
| GAP8 | 2.27E-02 | 0.100 | int8 | RISC-V Manycore | 2.27E-01 |
| Eyeriss | 6.72E-02 | 0.278 | int16 | Dataflow ASIC | 2.42E-01 |
| ShiDianNao | 1.94E-01 | 0.320 | int16 | Dataflow ASIC | 6.06E-01 |
| DianNao | 4.52E-01 | 0.485 | int16 | Dataflow ASIC | 9.32E-01 |
| PuDianNao | 1.06E+00 | 0.596 | int16 | Dataflow ASIC | 1.78E+00 |
| EIE | 1.02E-01 | 0.600 | int16 | Dataflow ASIC (Sparse) | 1.70E-01 |
| K210 | 2.50E-01 | 0.300 | int8 | RISC-V Dual Core + KPU | 8.33E-01 |
| Kendrite K210 | 2.30E-01 | 0.300 | int8 | RISC-V Dual Core + KPU | 7.67E-01 |
| TrueNorth | 1.89E+00 | 0.500 | int8 | Neuromorphic | 3.78E+00 |
| KL520 NPU | 3.00E-01 | 0.500 | int8 | Tensor ASIC | 6.00E-01 |
| xcore.ai | 5.12E-02 | 1.000 | int8 | DSP-like Multicore | 5.12E-02 |
| KL720 | 1.40E+00 | 1.556 | int8 | Tensor ASIC | 9.00E-01 |
- IMX500은 테스트 플랫폼 중에서 86.2 MAC/cycle로 가장 높은 컴퓨트 밀도와 가장 낮은 Energy–Delay Product를 달성했다.
- GAP9은 MCU급 전력 예산 내에서 MAC/J를 경쟁적으로 제공하며, 낮은 주파수에서 에너지 효율에 중점을 둔다.
- STM32N6은 원시 지연시간이 가장 낮은 13.7 ms를 제공하지만 에너지 비용은 현저히 높다.
- IMX500은 인-센서 컴퓨트 설계에 의해 1359.6 MMAC/J의 우수한 에너지 효율을 보이며 다른 플랫폼에 비해 우수하다.
- GAP9은 배터리 제약이 있는 MCU급 배포에서 여전히 경쟁력을 유지하고; STM32N6은 지연 중심으로 작동하며 에너지 사용이 더 높고; IMX500은 인-센서 처리의 이점을 보여준다.
- 벤치마킹은 엣지, 근-센서 및 인-센서 아키텍처 간의 뚜렷한 설계 트레이드오프를 강조한다.
![Figure 2: Benchmarking results of PicoSAM2 [ 25 ] , comparing its energy efficiency, latency, inference efficiency, and energy–delay product (EDP) on GAP9, STM32N6, and IMX500. The results highlight the advantages of in-sensor compute for improved energy efficiency and latency.](https://ar5iv.labs.arxiv.org/html/2603.08725/assets/x2.png)
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.