QUICK REVIEW

[論文レビュー] Towards High Performance Video Object Detection for Mobiles

Xizhou Zhu, Jifeng Dai|arXiv (Cornell University)|Apr 16, 2018

Advanced Neural Network Applications参考文献 39被引用数 35

ひとこと要約

本論文は、スパースなキーフレーム、非常に小さなフローネットワーク（Light Flow）、およびフローフィードバックGRUを活用することで、モバイルデバイス向けの軽量でエンドツーエンドの動画オブジェクト検出システムを提案する。モバイルハードウェア（Huawei Mate 8）上で25.6 fpsで60.2% mAPを達成し、モバイルプラットフォームにおけるリアルタイム性能と高い精度を兼ね備えた、新たな最先端の成果を達成した。

ABSTRACT

Despite the recent success of video object detection on Desktop GPUs, its architecture is still far too heavy for mobiles. It is also unclear whether the key principles of sparse feature propagation and multi-frame feature aggregation apply at very limited computational resources. In this paper, we present a light weight network architecture for video object detection on mobiles. Light weight image object detector is applied on sparse key frames. A very small network, Light Flow, is designed for establishing correspondence across frames. A flow-guided GRU module is designed to effectively aggregate features on key frames. For non-key frames, sparse feature propagation is performed. The whole network can be trained end-to-end. The proposed system achieves 60.2% mAP score at speed of 25.6 fps on mobiles (e.g., HuaWei Mate 8).

研究の動機と目的

制限された計算リソースを持つモバイルデバイスに、高精度な動画オブジェクト検出を実装する課題に対処すること。
極めて制限された計算リソース下でも、スパースな特徴伝搬とマルチフレーム特徴集約が有効に機能するかを調査すること。
モバイルハードウェア上でリアルタイムの推論速度を維持しながら、高い精度を保つシステムを設計すること。
軽量な画像検出、フローエstimations、時間的特徴集約を統合したエンドツーエンドで訓練可能なアーキテクチャを統合すること。
従来の手法と比較して、モバイル向け動画オブジェクト検出におけるスピードと精度のトレードオフを顕著に改善すること。

提案手法

計算負荷を軽減するため、スパースなキーフレームでのみ、軽量な画像オブジェクト検出器（Light-Head R-CNNおよびディープワイズ分離畳み込みに基づく）を適用する。
モバイル推論に最適化された、非常に小さな深層ニューラルネットワークであるLight Flowを導入し、フレーム間のリアルタイム光流推定を実現する。
フローパredクションを用いてキーフレーム間の特徴を空間的に整合化するため、フローフィードバックGRUモジュールを設計する。
Light Flowが推定したフローを用いて、非キーフレームにおけるスパースな特徴伝搬を実行し、キーフレームの特徴を転送する。
検出、フローエステイマション、特徴集約を同時に最適化するため、全システムをエンドツーエンドで訓練する。
キーフレーム間隔を10フレームに設定し、速度と精度のバランスを取るために入力解像度を調整する。フローネットワークの解像度は検出ネットワークの半分に設定する。

実験結果

リサーチクエスチョン

RQ1モバイルデバイスの極めて制限された計算リソース下でも、スパースな特徴伝搬とマルチフレーム特徴集約の原則が有効に適用可能か？
RQ2リアルタイム推論を可能にしつつ、特徴整合化に十分な精度を維持できるように、軽量なフローエステイマションネットワークをどのように設計できるか？
RQ3メモリと速度の制限があるモバイルプラットフォームにおいて、フローフィードバックGRUモジュールが長距離時間的特徴を効果的に集約できるか？
RQ4キーフレーム検出、フローに基づく伝搬、時間的集約を組み合わせた場合、モバイルデバイス上での動画オブジェクト検出における実現可能なスピードと精度のトレードオフはどの程度か？
RQ5統合されたパイプラインをエンドツーエンドで訓練することで、段階的または非エンドツーエンドアプローチと比較して、性能が顕著に向上するか？

主な発見

提案手法は、Huawei Mate 8で25.6 fpsでImageNet VIDバリデーションセット上で60.2% mAPを達成し、モバイル向けリアルタイム動画オブジェクト検出の分野で新たな最先端の成果を樹立した。
前回の最良手法（Fast YOLO）と比較して、10倍以上高速（0.3 fps 対 25.6 fps）でありながら、精度は同等または上回っている。
YOLOv2、SSDLite、Tiny YOLOは、それぞれ58.7%、57.1%、44.1%のmAPを達成したが、フレームレートは著しく遅く（0.3、3.8、2.2 fps）、本手法の優位性を示している。
Light Flowの使用により、モバイルデバイス上でリアルタイムのフローエステイマションが可能になり、スパースな特徴伝搬が実用的に行えるようになった。
フローフィードバックGRUモジュールは、過度なメモリや計算コストをかけずに、キーフレーム間の特徴を集約し、検出精度を向上させた。
エンドツーエンドでのパイプライン訓練が、非エンドツーエンドまたは段階的訓練よりも優れた性能をもたらすことが、アブレーションスタディにより確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。