QUICK REVIEW

[論文レビュー] NAS-FCOS: Fast Neural Architecture Search for Object Detection

Ning Wang, Yang Gao|arXiv (Cornell University)|Jun 11, 2019

Advanced Neural Network Applications参考文献 33被引用数 25

ひとこと要約

この論文は、アンカーレスなFCOS検出器の特徴マップピラミッドネットワーク（FPN）と予測ヘッドを、特化した強化学習パラダイムを用いて最適化する、高速でメモリ効率の良いニューラルアーキテクチャサーチ（NAS）フレームワークであるNAS-FCOSを提案する。軽量なプロキシタスク、プログレッシブサーチ、判別性の高い評価を活用することで、8枚のV100 GPUを用いてわずか4日間で最先端のアーキテクチャを発見し、FLOPsとメモリが同等の既存モデルに対してCOCOで1.5–3.5 APの向上を達成する。

ABSTRACT

The success of deep neural networks relies on significant architecture engineering. Recently neural architecture search (NAS) has emerged as a promise to greatly reduce manual effort in network design by automatically searching for optimal architectures, although typically such algorithms need an excessive amount of computational resources, e.g., a few thousand GPU-days. To date, on challenging vision tasks such as object detection, NAS, especially fast versions of NAS, is less studied. Here we propose to search for the decoder structure of object detectors with search efficiency being taken into consideration. To be more specific, we aim to efficiently search for the feature pyramid network (FPN) as well as the prediction head of a simple anchor-free object detector, namely FCOS, using a tailored reinforcement learning paradigm. With carefully designed search space, search algorithms and strategies for evaluating network quality, we are able to efficiently search a top-performing detection architecture within 4 days using 8 V100 GPUs. The discovered architecture surpasses state-of-the-art object detection models (such as Faster R-CNN, RetinaNet and FCOS) by 1.5 to 3.5 points in AP on the COCO dataset, with comparable computation complexity and memory footprint, demonstrating the efficacy of the proposed NAS for object detection.

研究の動機と目的

オブジェクト検出における既存のニューラルアーキテクチャサーチ（NAS）手法が、特に複雑でマルチヘッドなアーキテクチャにおいて高い計算コストと非効率性を示す問題に対処すること。
一回検出器の最適なFPNおよび予測ヘッド構造を探索する際の探索時間とメモリ使用量を削減しながら、高い精度を維持すること。
完全なバックボーン微調整を回避するプロキシトレーニング方式を開発し、検索品質を損なわず、評価を高速化すること。
多様なバックボーン（例：MobileNetV2、ResNet、ResNeXt）において、探索されたアーキテクチャの有効性と一般化能力を示すこと。

提案手法

バックボーンの微調整を省略する軽量なプロキシタスクを設計し、評価時間を顕著に短縮すると同時に、完全なCOCOトレーニング性能と強い相関を維持する。
検証損失に基づく報酬関数を用いた強化学習ベースの探索戦略を採用し、初期探索段階では直接APに基づく報酬よりも収束性に優れることが示された。
まずFPN（f）を探索し、その後FPNとヘッド（f + h）を同時に探索するプログレッシブサーチ戦略を構築し、探索空間の拡大を抑制して効率性を向上させる。
FPNおよびヘッドの両方で標準的および可変畳み込みを含む探索空間を定義し、アーキテクチャの多様性を確保しながら計算の実行可能性を維持する。
探索中の複雑さを低減し、トレーニングを高速化するために、簡素化されたアンカーレス1段階検出器（FCOS）をベースフレームワークとして採用する。
小さな検証セットにおける高い性能を示すアーキテクチャを優先する判別性の高い評価基準を導入し、探索における誤検出を低減する。

実験結果

リサーチクエスチョン

RQ1完全なトレーニングによる評価に依存せずに、高速でメモリ効率の良いNASフレームワークが、オブジェクト検出における高性能なFPNおよび予測ヘッドアーキテクチャを効果的に探索できるか。
RQ2検証損失をプロキシ報酬として使用する場合と、直接APを報酬として使用する場合とを比較した場合、探索収束性および最終モデルの精度にどのような差が生じるか。
RQ3最初にFPNを探索し、その後ヘッドを探索するプログレッシブサーチは、初期段階からFPNとヘッドを同時に探索する場合と比較して、どの程度探索効率と性能が向上するか。
RQ4可変畳み込みとヘッドにおける重み共有は、探索されたアーキテクチャにおける性能向上にどの程度寄与するか。
RQ5探索されたアーキテクチャは、異なるバックボーン（例：ResNet、MobileNetV2）に一般化可能であり、一貫したAP向上を維持できるか。

主な発見

NAS-FCOSは、8枚のV100 GPUを用いてわずか4日間で、Faster R-CNN、RetinaNet、FCOSなどの最先端モデルと同等のFLOPsとメモリ使用量でCOCOデータセット上で1.5–3.5 APの向上を達成する、最適なオブジェクト検出アーキテクチャを発見した。
プロキシタスク報酬と最終的なCOCO APとの間に強い相関関係（図6）が確認され、提案されたプロキシ評価スキームの有効性が裏付けられた。
検証損失をRL報酬として使用した場合、安定した明確な性能向上トレンドが得られたが、直接APに基づく報酬では初期探索ラウンドで収束性が悪かった。
FPNとヘッドを同時に探索する（f + h）ことで最高の性能（ResNet-50を用いてAP = 39.8）が得られ、別々の探索やDeformFPN-FCOSベースライン（AP = 38.4）を上回った。
探索されたアーキテクチャはバックボーンに一般化しやすく、ResNeXt-101を用いたNAS-FCOSは、FLOPsを1/3に抑える一方で、NAS-FPNよりも1.3 AP高い性能を達成した。
FPN幅128およびヘッド幅256のモデルは、性能と推論コストのバランスをとった、望ましい精度-計算トレードオフを提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。