QUICK REVIEW

[論文レビュー] AI Benchmark: Running Deep Neural Networks on Android Smartphones

Andrey Ignatov, Radu Timofte|arXiv (Cornell University)|Oct 2, 2018

IoT and Edge/Fog Computing参考文献 39被引用数 26

ひとこと要約

本稿では、Androidスマートフォンにおける深層ニューラルネットワークの推論速度および効率を測定する包括的なパフォーマンス評価フレームワークであるAI Benchmarkを提示する。本研究では、Qualcomm、HiSilicon、MediaTek、Samsungの主要SoCプラットフォームにおけるハードウェアアクセラレーションを、実世界のワークロードを用いて評価し、HuaweiのNPU搭載Kirin 970が浮動小数点精度モデルにおいて他を上回ることを明らかにした。一方、量子化ネットワークはツールキットと精度に関する懸念から、依然として制限を受けることが分かった。

ABSTRACT

Over the last years, the computational power of mobile devices such as smartphones and tablets has grown dramatically, reaching the level of desktop computers available not long ago. While standard smartphone apps are no longer a problem for them, there is still a group of tasks that can easily challenge even high-end devices, namely running artificial intelligence algorithms. In this paper, we present a study of the current state of deep learning in the Android ecosystem and describe available frameworks, programming models and the limitations of running AI on smartphones. We give an overview of the hardware acceleration resources available on four main mobile chipset platforms: Qualcomm, HiSilicon, MediaTek and Samsung. Additionally, we present the real-world performance results of different mobile SoCs collected with AI Benchmark that are covering all main existing hardware configurations.

研究の動機と目的

Androidスマートフォンにおけるディープラーニング推論の現状、特にパフォーマンスとハードウェアアクセラレーションに焦点を当てた評価を行う。
主要なAIフレームワーク（TensorFlow Lite、SNPE、HiAI、NeuroPilot）が多様なモバイルSoC上でどれほど効果的に機能するかを評価する。
特に移植性と量子化に関する点で、現在のモバイルAIデプロイスタックにおけるパフォーマンスのボトルネックと制限を特定する。
開発者がモバイルAIワークロード向けに最適なフレームワークとハードウェアターゲットを選定するためのデータドリブンな推奨事項を提供する。
将来的なモバイルAIアクセラレーション分野の進展を追跡するための繰り返し可能なベンチマークフレームワークを確立する。

提案手法

AI Benchmark v1.0を設計・展開し、10,000台以上のAndroidデバイスで100以上のディープラーニングモデルの推論速度を測定する標準化されたパフォーマンススイートを提供した。
Qualcomm、HiSilicon、MediaTek、Samsungの4社の主要ベンダーから50以上のモバイルシステムオンチップ（SoC）の実世界の推論パフォーマンスデータを収集した。
TensorFlow Lite、SNPE（Qualcomm）、HiAI（HiSilicon）、NeuroPilot（MediaTek）といった複数のAIフレームワークを、同一のワークロードで評価した。
一般的なコンピュータビジョンおよびNLPタスクを対象に、浮動小数点精度モデルと量子化モデルの両方のパフォーマンスを測定した。
Android Neural Networks API（NNAPI）を共通の抽象化レイヤーとして用い、クロスプラットフォームの互換性とパフォーマンスを比較した。
NPU、GPU、DSPといったハードウェアアクセラレータが推論速度およびエネルギー効率に与える影響を、実世界のワークロードに焦点を当てて分析した。

実験結果

リサーチクエスチョン

RQ1Qualcomm、HiSilicon、MediaTek、Samsungの異なるモバイルSoCは、実世界のモデルにおいて、ディープラーニング推論パフォーマンスでどのように比較されるか？
RQ2SNPE や HiAI といったベンダー固有のSDK を使用するのと、TensorFlow Lite や NNAPI といった標準化されたフレームワークを使用するのとでは、パフォーマンスと移植性のトレードオフはどのようなものか？
RQ3NPU、GPU、DSP といったハードウェアアクセラレーションは、スマートフォン上での一般的なディープラーニングモデルの推論速度とエネルギー効率をどの程度向上させるか？
RQ4モバイルデプロイメントにおける量子化ニューラルネットワークの現在の制限とは何か。また、それらは精度とパフォーマンスにどのように影響するか？
RQ5Android NNAPI はどのようにクロスプラットフォーム互換性を実現するのか。また、異なるデバイスプラットフォーム間での実用的パフォーマンスへの影響は何か？

主な発見

NPU搭載のHuawei Kirin 970 SoCは、浮動小数点精度モデルにおいて、評価時時点で他すべてのSoCを大きく上回る推論パフォーマンスを示した。
ベンダー固有のSDK（例：SNPE、HiAI、NeuroPilot）は、それらが提供されるプラットフォーム上では、TensorFlow Lite などの汎用フレームワークよりも優れたパフォーマンスを発揮したが、その代わりに移植性が損なわれた。
TensorFlow Lite は一部のデバイスではCPUベースの実装と同等のパフォーマンスを示したが、複雑または非標準的なアーキテクチャでは問題を抱えていた。
NNAPIを介したハードウェアアクセラレーションはデバイス間で一貫性がなく、一部のデバイスではGPUが利用可能でも使用されず、最適でないパフォーマンスに終わった。
量子化モデルは、信頼性が高く標準化された量子化ツールの欠如により、依然として制限を受けており、精度の低下が主な懸念事項のままだった。
AI Benchmarkフレームワークは、10,000台以上のデバイスと50以上のSoCからデータを収集し、モバイルAI分野における再現可能で現実世界のパフォーマンス評価手法を確立した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。