QUICK REVIEW

[論文レビュー] Larq Compute Engine: Design, Benchmark, and Deploy State-of-the-Art Binarized Neural Networks

Tom Bannink, Arash Bakhtiari|arXiv (Cornell University)|Nov 18, 2020

Advanced Neural Network Applications参考文献 34被引用数 6

ひとこと要約

Larq Compute Engine (LCE) は、バイナリゼーションニューラルネットワーク (BNNs) のための高度に最適化された推論エンジンであり、モバイルデバイス上で最先端のパフォーマンスを実現する。TensorFlow および TensorFlow Lite と統合することで、Pixel 1 モデルではバイナリ畳み込みを 8.5–18.5× に高速化し、エンドツーエンドのトレーニングからデプロイのパイプラインを可能にした。これにより、QuickNet と呼ばれる単純で高精度な BNN が開発され、ImageNet におけるレイテンシと精度の両面で既存のモデルを上回った。

ABSTRACT

We introduce Larq Compute Engine, the world's fastest Binarized Neural Network (BNN) inference engine, and use this framework to investigate several important questions about the efficiency of BNNs and to design a new state-of-the-art BNN architecture. LCE provides highly optimized implementations of binary operations and accelerates binary convolutions by 8.5 - 18.5x compared to their full-precision counterparts on Pixel 1 phones. LCE's integration with Larq and a sophisticated MLIR-based converter allow users to move smoothly from training to deployment. By extending TensorFlow and TensorFlow Lite, LCE supports models which combine binary and full-precision layers, and can be easily integrated into existing applications. Using LCE, we analyze the performance of existing BNN computer vision architectures and develop QuickNet, a simple, easy-to-reproduce BNN that outperforms existing binary networks in terms of latency and accuracy on ImageNet. Furthermore, we investigate the impact of full-precision shortcuts and the relationship between number of MACs and model latency. We are convinced that empirical performance should drive BNN architecture design and hope this work will facilitate others to design, benchmark and deploy binary models.

研究の動機と目的

エッジデバイスにおけるバイナリゼーションニューラルネットワーク (BNNs) のトレーニング、ベンチマーク、デプロイを統合的かつ高性能に実行できるソフトウェアツールキットの不足に対処すること。
既存の BNN フレームワークにおける遅延の大きな障壁を克服し、モバイル推論用に高度に最適化され手動チューニングされたバイナリ演算を提供することで、実用的な遅延を改善すること。
研究者や開発者が TensorFlow や TensorFlow Lite のエコシステムに馴染みながら、BNN の設計、トレーニング、デプロイをシームレスに行えるようにすること。
BNN アーキテクチャにおける実験的パフォーマンスボトルネックを特定し、フルプレシジョンのショートカットや MAC 数とレイテンシの相関関係といったアーキテクチャ選択の実世界への影響を評価すること。
単一段階のトレーニングプロセスを用いて、単純で再現性のある BNN アーキテクチャである QuickNet を開発し、ImageNet で最先端の精度とレイテンシを達成すること。

提案手法

TensorFlow および TensorFlow Lite を活用して、BNN のためのフルスタック推論パイプラインを構築し、トレーニング済みモデルを最適化された推論グラフに変換する MLIR ベースのグラフコンバーターを導入する。
XOR および POPCOUNT 演算を活用し、手動で最適化された BGEMM（バイナリ GEMM）カーネルを導入することで、バイナリ畳み込みを 8.5–18.5× に高速化し、Pixel 1 モデルで顕著なパフォーマンス向上を達成する。
単一のモデル内でバイナリ層とフルプレシジョン層を共存可能にすることでミックスプレシジョンモデルをサポートし、自動的なビットパックおよびプレシジョン管理を実現する。
トレーニング時に使用されるエミュレートされたバイナリ演算を推論時に真のバイナリ演算に変換する高度なコンバーターを採用し、正確性とパフォーマンスの両立を確保する。
64ビット ARM デバイス（Pixel 1 モデルや Raspberry Pi 4 を含む）をターゲットとしたハードウェアに配慮した設計アプローチを採用し、実世界でのパフォーマンスの関連性を確保する。
多様な BNN アーキテクチャと設計選択肢について、実デバイス上での実験的ベンチマークを実施し、レイテンシ、精度、MAC 効率を評価する。

実験結果

リサーチクエスチョン

RQ1既存の BNN アーキテクチャにおいて、特にフルプレシジョン部品に関連して、主なレイテンシボトルネックは何であるか？
RQ2ショートカット接続の種別（例：フルプレシジョン vs. バイナリ）が、BNN の推論レイテンシと精度にどのように影響を与えるか？
RQ3多様な BNN アーキテクチャを比較する際、乗算累積演算（MAC）の数が、実世界の推論レイテンシとどの程度相関しているか？
RQ4単一段階のトレーニング手法によって、複雑なマルチステージ手法を上回る精度とレイテンシを達成できるバイナリニューラルネットワークアーキテクチャを構築できるか？
RQ5フルプレシジョンとバイナリゼーションモデルのデプロイにおける使いやすさとパフォーマンスのギャップを埋めるためのソフトウェアツールキットは、どのように設計できるか？

主な発見

Larq Compute Engine は、Pixel 1 モデルでフルプレシジョンの対応するものと比較して、バイナリ畳み込みを 8.5× から 18.5× に高速化し、最適化された BGEMM カーネルによって顕著なパフォーマンス向上を実現した。
単一段階のトレーニングプロセスを採用する単純な BNN である QuickNet は、その単純さにもかかわらず、ImageNet で最先端の精度とレイテンシを達成し、既存のバイナリネットワークを上回った。
フルプレシジョンのショートカット接続は、わずかなレイテンシのオーバーヘッドしか追加しないものの、顕著な精度向上をもたらすため、BNN の設計において正当化される。
MAC 数は、根本的に異なる BNN アーキテクチャを比較する際には、実世界のレイテンシの良好な予測因子とはならず、BinaryAlexNet が類似した MAC 数を持つモデルと比較してほぼ 2 倍遅いことが実証された。
実デバイス上での実験的ベンチマークから、層のプレシジョンや演算レイアウトといったアーキテクチャ選択がレイテンシに顕著に影響することが明らかになった。これにより、理論的指標に頼るのではなく、ハードウェアに配慮した設計の重要性が強調された。
LCE と Larq、TensorFlow Lite の統合により、BNN 開発のためのシームレスでエンドツーエンドのパイプラインが実現され、研究者や実務家が参入する障壁が著しく低減された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。