Skip to main content
QUICK REVIEW

[論文レビュー] Hidden costs for inference with deep network on embedded system devices

Chankyu Lee, Woohyun Choi|arXiv (Cornell University)|Jan 5, 2026
Advanced Neural Network Applications被引用数 0
ひとこと要約

本論文はMACベースの指標が埋め込み推論時間を安定して予測できないことを示し、埋め込みデバイス上で10モデルにわたり性能へ影響する追加のテンソル演算を分析します。

ABSTRACT

This study evaluates the inference performance of various deep learning models under an embedded system environment. In previous works, Multiply-Accumulate operation is typically used to measure computational load of a deep model. According to this study, however, this metric has a limitation to estimate inference time on embedded devices. This paper poses the question of what aspects are overlooked when expressed in terms of Multiply-Accumulate operations. In experiments, an image classification task is performed on an embedded system device using the CIFAR-100 dataset to compare and analyze the inference times of ten deep models with the theoretically calculated Multiply-Accumulate operations for each model. The results highlight the importance of considering additional computations between tensors when optimizing deep learning models for real-time performing in embedded systems.

研究の動機と目的

  • モデルの複雑さ(パラメータ数とMACs)と埋め込みシステムでの実推論時間の関係を評価する。
  • 推論のどの要素がMACsを超えて実行時間を支配するかを特定する。
  • リソース制限下のハードウェアでのリアルタイム性能に対する異なるアーキテクチャの比較評価を行う。
  • 埋め込み展開のためにディープモデルを最適化する設計上の考慮事項を提案する。

提案手法

  • CIFAR-100上で10個のCNNモデル(VGG16, InceptionV3, InceptionV4, ResNet50, SeResNet50, Xception, MobileNet, MobileNetV2, ShuffleNet, ShuffleNetV2)を評価する。
  • 8GB RAMのクアッドコア64ビット埋め込みデバイス(1.5–1.8 GHz)で推論時間を測定する。
  • thop.profileを用いてMACsを計算し、torch.profileを用いて実推論時間を測定する。
  • Conv2D、BatchNorm、ReLU、Concat、Addの総推論時間への寄与を分析する。
  • Conv2Dを畳み込み、slice、narrow、empty、viewといったサブ演算に分解し、モデル間での実行時間を比較する。
Figure 1: Experiment environment performed on embedded system
Figure 1: Experiment environment performed on embedded system

実験結果

リサーチクエスチョン

  • RQ1MACsとパラメータ数は埋め込みデバイスでの実推論時間と相関するか。
  • RQ2推論パイプラインのどの要素がMACsを超えて実行時間に最も寄与するか。
  • RQ3異なるモデルアーキテクチャは埋め込みハードウェア上の予期せぬテンソル演算のオーバーヘッドでどう差が出るか。
  • RQ4MACsを減らす以外の設計選択が埋め込みシステムのリアルタイム性能を向上させるか。

主な発見

  • 推論時間はモデル間でMACsやパラメータ数と相関しない。
  • Conv2D演算は一部モデルで全時間の大半(70%超)を占めるが、slice、narrow、メモリアロケーションなどのテンソル演算が他のモデル(例:Xception)で支配的になる。
  • MACsが低くても、Xceptionのように畳み込み以外のテンソル演算のオーバーヘッドが大きいことで推論時間が長くなるモデルがある。
  • BN、ReLU、Concat、Addは実行時間に対して顕著な寄与をし、これらはMAC計算には含まれていない。
  • リソースが限られた埋め込みデバイスでは、テンソル演算のオーバーヘッドが高性能サーバーと比べて性能に顕著な影響を及ぼす。
Figure 2: Distributions of model accuracy and computation speed for 10-deep models along with Pearson correlation coefficient: (a) Accuracy vs size, (b) Size vs Computations, (c) Accuracy vs time, (d) Time vs computations
Figure 2: Distributions of model accuracy and computation speed for 10-deep models along with Pearson correlation coefficient: (a) Accuracy vs size, (b) Size vs Computations, (c) Accuracy vs time, (d) Time vs computations

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。