[論文レビュー] FCN-Pose: A Pruned and Quantized CNN for Robot Pose Estimation for Constrained Devices
この論文は、制約されたデバイス(Raspberry Pi など)での実行を前提に、パラメータとFLOPSを大幅に削減し、リアルタイム性能を向上させた軽量な全畳み込みネットワークFCN-Poseを提案します。
IoT devices suffer from resource limitations, such as processor, RAM, and disc storage. These limitations become more evident when handling demanding applications, such as deep learning, well-known for their heavy computational requirements. A case in point is robot pose estimation, an application that predicts the critical points of the desired image object. One way to mitigate processing and storage problems is compressing that deep learning application. This paper proposes a new CNN for the pose estimation while applying the compression techniques of pruning and quantization to reduce his demands and improve the response time. While the pruning process reduces the total number of parameters required for inference, quantization decreases the precision of the floating-point. We run the approach using a pose estimation task for a robotic arm and compare the results in a high-end device and a constrained device. As metrics, we consider the number of Floating-point Operations Per Second(FLOPS), the total of mathematical computations, the calculation of parameters, the inference time, and the number of video frames processed per second. In addition, we undertake a qualitative evaluation where we compare the output image predicted for each pruned network with the corresponding original one. We reduce the originally proposed network to a 70% pruning rate, implying an 88.86% reduction in parameters, 94.45% reduction in FLOPS, and for the disc storage, we reduced the requirement in 70% while increasing error by a mere $1\%$. With regard input image processing, this metric increases from 11.71 FPS to 41.9 FPS for the Desktop case. When using the constrained device, image processing augmented from 2.86 FPS to 10.04 FPS. The higher processing rate of image frames achieved by the proposed approach allows a much shorter response time.
研究の動機と目的
- IoT/エッジデバイスの制限された計算リソースとストレージでのリアルタイムなロボット姿勢推定を動機づける。
- キーポイントベースのロボット姿勢推定のためのコンパクトなCNNアーキテクチャ(FCN-Pose)を開発する。
- 剪定と量子化を適用してモデルサイズと計算量を大幅に削減しつつ精度を維持する。
- デスクトップと制約されたデバイス(Raspberry Pi 3)での性能を示す。
- 姿勢推定出力に対する圧縮の定性的および定量的評価を提供する。
提案手法
- 10の畳み込み層、5つの最大プーリング層、4つのアップサンプリング層、8つのキーポイント+スケルトンの9出力セグメンテーションマップを備えた軽量なFully Convolutional NetworkとしてFCN-Poseを設計する。
- 8つのキーポイントと対応するセグメンテーションマスクを含むロボットアーム姿勢データセットで学習し、回転・パディングによるデータ拡張で過学習を抑制する。
- フィルターランク付け(L1-norm)による剪定で冗長なフィルターを除去し、再学習を行う。
- ストレージを削減するためにFP32からFP16へのポストトレーニング量子化を適用する。
- 量子化後に追加のトレーニングを行わず、まず剪定して再学習し、次に量子化してエンドツーエンドを圧縮する。
- セグメンテーション領域からキーポイント座標を導出するためのクラスタリングベースのリファインメント(Expansion Clustering)をポスト処理で使用する。
実験結果
リサーチクエスチョン
- RQ1FCN-Poseはリソース制約下でロボットアームのキーポイントを正確に予測できるか?
- RQ2剪定と量子化はデスクトップと制約されたデバイスでのキーポイント検出精度(PCK)と処理速度にどのように影響するか?
- RQ3圧縮後のパラメータ数、FLOPs、ディスク容量、姿勢推定誤差のトレードオフはどうなるか?
主な発見
| フォルダID | PCK@0.5 | 推論時間(秒) | FPS(CPU) |
|---|---|---|---|
| 0 | 0.997 | 0.088 | 11.346 |
| 1 | 0.997 | 0.085 | 11.731 |
| 2 | 0.999 | 0.084 | 11.825 |
| 3 | 0.998 | 0.085 | 11.754 |
| 4 | 0.996 | 0.084 | 11.899 |
- FCN-Poseは131,705パラメータと1.7 MBのストレージを有し、典型的なFCNスタイルのネットワークよりもかなり小さい。
- 70%の剪定時、パラメータは88.86%削減、FLOPSは94.45%削減、ストレージは70%削減、誤差は約1%増加にとどまる。
- デスクトップCPUでの平均PCK@0.5は約0.997、平均CPU FPSは約11.711(5分割交差検証あたり)である。
- 制約されたRaspberry Pi 3上では、圧縮後の入力画像処理FPSが2.86から10.04へ向上する。
- 剪定・量子化されたFCN-Poseは、制約されたデバイス上で実時間性能を著しく向上させ、精度の劣化は最小限である。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。