[論文レビュー] EXTD: Extremely Tiny Face Detector via Iterative Filter Reuse
EXTD は、軽量なバックボーンを繰り返し再利用して多段階の特徴マップを生成する極めてコンパクトな多尺度顔検出器を提示し、パラメータ数を大幅に減らしつつも重い検出器と同等の精度を達成します。
In this paper, we propose a new multi-scale face detector having an extremely tiny number of parameters (EXTD),less than 0.1 million, as well as achieving comparable performance to deep heavy detectors. While existing multi-scale face detectors extract feature maps with different scales from a single backbone network, our method generates the feature maps by iteratively reusing a shared lightweight and shallow backbone network. This iterative sharing of the backbone network significantly reduces the number of parameters, and also provides the abstract image semantics captured from the higher stage of the network layers to the lower-level feature map. The proposed idea is employed by various model architectures and evaluated by extensive experiments. From the experiments from WIDER FACE dataset, we show that the proposed face detector can handle faces with various scale and conditions, and achieved comparable performance to the more massive face detectors that few hundreds and tens times heavier in model size and floating point operations.
研究の動機と目的
- モバイル/CPU 環境に適した超小型の顔検出器の必要性を動機づける。
- パラメータを追加せずに多段階の特徴マップを生成するためのイテレーティブバックボーン共有を提案する。
- 軽量バックボーンの再利用により、パラメータ drastically 少なくても WIDER FACE で競争的な精度を示せることを示す。
- イテレーティブ共有をSSD および FPN アーキテクチャへ適用可能性を示す。
提案手法
- f_i = F(f_{i-1}) で f_0 = E(x) を用いたイテレーティブな特徴マップ生成を導入する。
- SSD 風(f_i を直接使用)と FPN 風(アップサンプリングを用いて g_i を生成しスキップ接続を行う)という二つのアーキテクチャを構築する。
- <0.1M パラメータ未満の inverted residual blocks からなる軽量バックボーンを設計し、チャネルを {32,48,64} に設定。
- 各特徴マップに対して単一の 3x3 分類・回帰ヘッドを接続;小顔の偽陽性を抑えるため最初のヘッドに Maxout を適用。
- オンライン難例マイニングとスケール補償アンカーマッチを用いた学習で、マルチタスク損失 L = (λ/N_cls) ∑ l_c(c_j,c*_j) + (1/N_reg) ∑ c*_j l_r(r_j,r*_j) を適用。
- データ拡張を利用し、スクラッチから訓練。WIDER FACE に対して Easy/Medium/Hard の mAP を評価。
実験結果
リサーチクエスチョン
- RQ1イテレーティブなバックボーン共有は、マルチスケール顔検出におけるパラメータ数を削減しつつ検出性能を維持できるか。
- RQ2イテレーティブな特徴マップ生成は、小顔検出のための下位レベルの特徴マップにおける意味的情報にどのような影響を与えるか。
- RQ3極端なパラメータ制約の下で、SSD 風と FPN 風アーキテクチャのトレードオフはどのようになるか。
主な発見
| Model | Backbone | # Params | # Madds (G) | Easy (mAP) | WIDER FACE Medium (mAP) | Hard (mAP) |
|---|---|---|---|---|---|---|
| PyramidBox | VGG-16 | 57 M | 129 | 0.961 | 0.950 | 0.887 |
| DSFD | ResNet101 | 399 M | - | 0.963 | 0.954 | 0.901 |
| DSFD-ResNet152 | ResNet152 | 459 M | - | 0.966 | 0.957 | 0.904 |
| S3FD | VGG-16 | 22 M | 128 | 0.942 | 0.930 | 0.887 |
| S3FD - Scratch | VGG-16 | 22 M | 128 | 0.931 | 0.920 | 0.846 |
| S3FD + MobileFaceNet | MobileFaceNet | 1.2 M | 12.7 | 0.881 | 0.859 | 0.741 |
| EXTD-FPN-32-PReLU | - | 0.063 M | 4.52 | 0.896 | 0.885 | 0.825 |
| EXTD-FPN-48-PReLU | - | 0.100 M | 6.67 | 0.913 | 0.904 | 0.847 |
| EXTD-FPN-64-PReLU | - | 0.160 M | 11.2 | 0.921/0.912 | 0.911/0.903 | 0.856/0.850 |
- EXTD バリアントは、S3FD のような重い検出器と比較して、パラメータ数と Madds が大幅に少ない状態で同程度の mAP を達成する。
- EXTD-FPN-64-PReLU は WIDER FACE 上で Easy 0.921、Medium 0.911、Hard 0.856 の mAP を達成;コストは 0.16M パラメータと 11.2 Madds。
- FPN ベースのアーキテクチャは、チャネル幅が小さい場合でも小顔検出において SSD ベースより一貫して上回る。
- 特徴チャネル幅を 32 から 64 に増やすと、SSD および FPN の両方の Easy/Medium/Hard mAP が大幅に改善される。
- 再発的バックボーン共有は、追加パラメータなしで下位レベルの特徴マップに豊かな意味情報をもたらし、小顔検出を改善する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。