QUICK REVIEW

[論文レビュー] Comparison and Benchmarking of AI Models and Frameworks on Mobile Devices

Chunjie Luo, Xiwen He|arXiv (Cornell University)|May 7, 2020

Advanced Neural Network Applications参考文献 34被引用数 41

ひとこと要約

AIoTBench は 6モデルと 3 フレームワークを跨いでモバイルAI推論を5デバイスでベンチマークし、VIPSとVOPSでスコアリングしてAI能力とトレードオフを比較します。

ABSTRACT

Due to increasing amounts of data and compute resources, deep learning achieves many successes in various domains. The application of deep learning on the mobile and embedded devices is taken more and more attentions, benchmarking and ranking the AI abilities of mobile and embedded devices becomes an urgent problem to be solved. Considering the model diversity and framework diversity, we propose a benchmark suite, AIoTBench, which focuses on the evaluation of the inference abilities of mobile and embedded devices. AIoTBench covers three typical heavy-weight networks: ResNet50, InceptionV3, DenseNet121, as well as three light-weight networks: SqueezeNet, MobileNetV2, MnasNet. Each network is implemented by three frameworks which are designed for mobile and embedded devices: Tensorflow Lite, Caffe2, Pytorch Mobile. To compare and rank the AI capabilities of the devices, we propose two unified metrics as the AI scores: Valid Images Per Second (VIPS) and Valid FLOPs Per Second (VOPS). Currently, we have compared and ranked 5 mobile devices using our benchmark. This list will be extended and updated soon after.

研究の動機と目的

モバイルおよび組み込みデバイスにおけるオンデバイスAI推論のベンチマークの必要性を動機づけ、定義する。
モデルアーキテクチャとフレームワーク全体で推論を評価するためのAIoTBenchを提案する。
デバイスを比較するための統一AIスコアVIPSとVOPSを導入する。
実機モバイルハードウェア上での実践的なベンチマークワークフローを提供する。

提案手法

6つのネットワークでワークロードを定義する（3つの重いネットワーク: ResNet50, InceptionV3, DenseNet121；3つの軽いネットワーク: SqueezeNet, MobileNetV2, MnasNet）。
各モデルを3つのモバイル/組み込みフレームワーク（TensorFlow Lite、Caffe2、PyTorch Mobile）で実装する。
推論ベンチマーク用にImageNet検証セットを使用する（クラスごとに5枚のランダム画像、合計5000枚）。
Table IVに指定されたフレームワーク固有の正規化、形状、カラー順序で入力を前処理する。
精度と1画像あたりの推論時間を測定し、定義された式を用いてAIスコアVIPSとVOPSを計算する。

実験結果

リサーチクエスチョン

RQ1異なるAIモデルは、フレームワーク間でモバイル機器上の精度、サイズ、推論速度をどう取引するのか？
RQ2モバイルハードウェアとフレームワークはオンデバイスAI推論性能にどう影響するのか？
RQ3統一されたVIPSとVOPSスコアはモバイルデバイスの比較に安定した基盤を提供するか？
RQ4同じデバイス上でフレームワークの選択はモデル性能にどのように影響するか？
RQ5同じモデルに対するデバイスや実装間での精度のばらつきはどの程度あるのか？

主な発見

AIoTBenchは、モバイルAI推論をベンチマークするために6モデルを3フレームワークにまたがって取り扱う。
統一的な2つの指標VIPSとVOPSは、精度を重みとしたエンドツーエンドの推論品質とスループットを要約する。
結果はデバイス、モデル、フレームワークによって性能が異なることを示しており、すべての条件で支配的な単一フレームワークはない。
同じモデルと実装でもデバイスが異なれば精度が異なる可能性がある；Oppo R17では僅かな精度偏差が見られる。
デバイスが異なるとフレームワークの性能順序が変化する。例えば、PyTorch Mobileは一部のデバイスでより高速だが、TensorFlow Lite CPUやNNAPIデリゲーションはモデル間で異なる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。