[論文レビュー] FishNet: A Versatile Backbone for Image, Region, and Pixel Level Prediction
FishNet は、複数解像度で特徴を保持・精錬して画像、領域、ピクセルレベルの予測を統合するバックボーンネットワークで、直接的な勾配伝搬を可能にし、競争力のパラメータ数で性能を向上させる。 ImageNet の分類精度は ResNet/DenseNet に対して優れ、バックボーンとして使用した場合 COCO の検出/セグメンテーションで顕著な向上を提供する。
The basic principles in designing convolutional neural network (CNN) structures for predicting objects on different levels, e.g., image-level, region-level, and pixel-level are diverging. Generally, network structures designed specifically for image classification are directly used as default backbone structure for other tasks including detection and segmentation, but there is seldom backbone structure designed under the consideration of unifying the advantages of networks designed for pixel-level or region-level predicting tasks, which may require very deep features with high resolution. Towards this goal, we design a fish-like network, called FishNet. In FishNet, the information of all resolutions is preserved and refined for the final task. Besides, we observe that existing works still cannot \emph{directly} propagate the gradient information from deep layers to shallow layers. Our design can better handle this problem. Extensive experiments have been conducted to demonstrate the remarkable performance of the FishNet. In particular, on ImageNet-1k, the accuracy of FishNet is able to surpass the performance of DenseNet and ResNet with fewer parameters. FishNet was applied as one of the modules in the winning entry of the COCO Detection 2018 challenge. The code is available at https://github.com/kevin-ssy/FishNet.
研究の動機と目的
- 高解像度・高レベル意味特徴を活用して画像・領域・ピクセルレベルのタスクを統合する unified バックボーンを動機づける。
- 尾部(深い特徴)、本体(アップサンプリング/精錬)、頭部(ダウンサンプリング/精錬)をつなぐ魚のようなアーキテクチャを設計し、直接的なバックプロパゲーションを可能にする。
- 局所的な畳み込みを回避し、解像度を跨ぐ結合ベースの接続を可能にして勾配伝搬を改善する。
- FishNet が類似のパラメータ数を持つ画像分類バックボーンを上回り、領域・ピクセルレベルのタスクの性能を向上させることを実証する。
提案手法
- 尾部(ダウンサンプリングバックボーン)、本体(横方向接続を備えたアップサンプリング/精錬)、頭部(マルチ解像度特徴を保持するための結合を用いたダウンサンプリング/精錬)という三部構成の FishNet を提案する。
- Up-sampling & Refinement blocks(UR-blocks)を用いて尾部と本体の特徴を融合させ、畳み込みで精錬する;特徴幅を管理するチャネル-wise な縮小 r を導入する(式8)。
- 頭部では Down-sampling & Refinement blocks(DR-blocks)を用いてマルチステージ特徴を下方へ伝搬しつつ勾配伝搬を保持する(頭部には孤立した畳み込みを避ける)。
- Critical transitions で Isolated convolution(I-conv)を避け、深い層から浅い層への直接的な勾配伝搬を維持する。
- 最近傍補間アップサンプリングと 2x2 ダウンサンプリングを採用し、本体に拡張畳みにより空間的可視性を保持する。
- ResNeXt のような grouping を統合することにより、アーキテクチャのバリアント(FishNet, FishNeXt)を提供し、パラメータに忠実な比較を実証する。
実験結果
リサーチクエスチョン
- RQ1単一のバックボーンアーキテクチャが画像・領域・ピクセルレベルのネットワークの利点を統合できるか。
- RQ2勾配伝搬を直接行う多解像度特徴の保持・精錬が、ResNet/DenseNet と同程度のパラメータ数で性能を向上させるか。
- RQ3バックボーンとして用いた場合、アップサンプリング/ダウンサンプリングの精錬が ImageNet および COCO のタスクの性能にどのような影響を与えるか。
- RQ4孤立した畳み込みを避けることが勾配フローと最終精度に与える影響は何か。
主な発見
| Backbone | AP_s (seg) | AP_S^s (seg) | AP_M^s (seg) | AP_L^s (seg) | AP_d (seg) | AP_S^d (seg) | AP_M^d (seg) | AP_L^d (seg) | AP_s (det) | AP_S^s (det) | AP_M^s (det) | AP_L^s (det) | AP_d (det) | AP_S^d (det) | AP_M^d (det) | AP_L^d (det) |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| ResNet-50 | 34.5 | 15.6 | 37.1 | 52.1 | 38.6 | 22.2 | 41.5 | 50.8 | 37.9 | 21.5 | 41.1 | 49.9 | ? | ? | ? | |
| ResNet-50 † | 34.7 | 18.5 | 37.4 | 47.7 | 38.7 | 22.3 | 42.0 | 51.2 | 38.0 | 21.4 | 41.6 | 50.1 | ? | ? | ? | |
| ResNeXt-50 (32x4d) † | 35.7 | 19.1 | 38.5 | 48.5 | 40.0 | 23.1 | 43.0 | 52.8 | 39.3 | 23.2 | 42.3 | 51.7 | ? | ? | ? | |
| FishNet-150 | 37.0 | 19.8 | 40.2 | 50.3 | 41.5 | 24.1 | 44.9 | 55.0 | 40.6 | 23.3 | 43.9 | 53.7 | ? | ? | ? | |
| vs. ResNet-50 † | +2.3 | +1.3 | +2.8 | +2.6 | +2.8 | +1.8 | +2.9 | +3.8 | +2.6 | +1.9 | +2.3 | +3.6 | ? | ? | ? | |
| vs. ResNeXt-50 † | +1.3 | +0.7 | +1.7 | +1.8 | +1.5 | +1.0 | +1.9 | +2.2 | +1.3 | +0.1 | +1.6 | +2.0 | ? | ? | ? |
- ImageNet-1k で、FishNet-150(≈ ResNet-50 のパラメータ数) は ResNet-101 および DenseNet を上回り、精度が良く FLOPs が低い。
- FishNet-150 は単一クロップ評価で ResNet-50 および ResNeXt-50 と比較して同程度のパラメータ予算内で上回る。
- MS COCO のバックボーンとして使用した場合、FishNet-150 は ResNet-50/ResNeXt-50 のベースラインより Mask R-CNN および FPN ベースの検出を約 2.3–2.8 AP ポイント改善。
- FishNet のバリアントは DenseNet および ResNet のベースラインより少ないパラメータで競合または優れた精度を達成し、領域・ピクセルレベルの予測を効果的に可能にした。
- COCO 2018 の優勝エントリは FishNet をバックボーン部品として使用し、インスタンスセグメンテーションの強力な結果に寄与した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。