Skip to main content
QUICK REVIEW

[논문 리뷰] Hidden costs for inference with deep network on embedded system devices

Chankyu Lee, Woohyun Choi|arXiv (Cornell University)|2026. 01. 05.
Advanced Neural Network Applications인용 수 0
한 줄 요약

이 논문은 MAC 기반 지표가 임베디드 추론 시간을 신뢰성 있게 예측하지 못함을 보여주고, 임베디드 디바이스에서 10개 모델에 걸친 성능에 영향을 주는 추가 텐서 연산을 분석합니다.

ABSTRACT

This study evaluates the inference performance of various deep learning models under an embedded system environment. In previous works, Multiply-Accumulate operation is typically used to measure computational load of a deep model. According to this study, however, this metric has a limitation to estimate inference time on embedded devices. This paper poses the question of what aspects are overlooked when expressed in terms of Multiply-Accumulate operations. In experiments, an image classification task is performed on an embedded system device using the CIFAR-100 dataset to compare and analyze the inference times of ten deep models with the theoretically calculated Multiply-Accumulate operations for each model. The results highlight the importance of considering additional computations between tensors when optimizing deep learning models for real-time performing in embedded systems.

연구 동기 및 목표

  • 모델 복잡도(매개변수 수 및 MACs)와 임베디드 시스템에서의 실제 추론 시간 간의 관계를 평가한다.
  • MACs를 넘어 실행 시간을 지배하는 추론 구성요소를 식별한다.
  • 자원 제한 하의 하드웨어에서 서로 다른 아키텍처가 실시간으로 어떻게 수행되는지 평가한다.
  • 임베디드 배치를 위한 딥 모델 최적화를 위한 설계 고려사항을 제안한다.

제안 방법

  • CIFAR-100에서 10개의 CNN 모델(VGG16, InceptionV3, InceptionV4, ResNet50, SeResNet50, Xception, MobileNet, MobileNetV2, ShuffleNet, ShuffleNetV2)을 평가한다.
  • 8 GB RAM을 갖춘 64비트 쿼드코어 임베디드 디바이스에서 추론 시간을 측정한다(1.5–1.8 GHz).
  • thop.profile를 사용하여 MAC를 계산하고 torch.profile를 사용하여 실제 추론 시간을 측정한다.
  • Conv2D, BatchNorm, ReLU, Concat, Add가 총 추론 시간에 기여하는 바를 분석한다.
  • Conv2D를 서브 연산(컨볼루션, slice, narrow, empty, view)으로 분해하고 모델 간 런타임을 비교한다.
Figure 1: Experiment environment performed on embedded system
Figure 1: Experiment environment performed on embedded system

실험 결과

연구 질문

  • RQ1MACs와 매개변수 수가 임베디드 디바이스에서의 실제 추론 시간과 상관관계가 있는가?
  • RQ2MACs를 넘어 추론 파이프라인의 어떤 구성요소가 실행 시간에 가장 크게 기여하는가?
  • RQ3다른 모델 아키텍처가 임베디드 하드웨어에서 예기치 않은 텐서 연산 오버헤드에서 어떻게 다른가?
  • RQ4MAC 감소를 넘어서 설계 선택이 임베디드 시스템에서 더 나은 실시간 성능으로 이어질 수 있는가?

주요 결과

  • 추론 시간은 모델 간 MACs나 매개변수 수와 상관관계가 없다.
  • Conv2D 연산이 시간의 대부분을 차지하지만, slice, narrow, 메모리 할당과 같은 텐서 연산이 다른 모델들에서 우세해질 수 있다(예: Xception).
  • 일부 모델(예: Xception)은 비합성 곱 텐서 연산의 더 높은 오버헤드로 인해 MAC가 더 낮더라도 추론 시간이 더 길다.
  • BN, ReLU, Concat, Add는 합산적으로 런타임에 상당한 기여를 하며, 이들은 MAC 계산에 포함되지 않는다.
  • 제약된 자원의 임베디드 디바이스에서 텐서 연산 오버헤드는 고급 서버에 비해 성능에 현저한 영향을 준다.
Figure 2: Distributions of model accuracy and computation speed for 10-deep models along with Pearson correlation coefficient: (a) Accuracy vs size, (b) Size vs Computations, (c) Accuracy vs time, (d) Time vs computations
Figure 2: Distributions of model accuracy and computation speed for 10-deep models along with Pearson correlation coefficient: (a) Accuracy vs size, (b) Size vs Computations, (c) Accuracy vs time, (d) Time vs computations

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.