[論文レビュー] EfficientDet: Scalable and Efficient Object Detection
EfficientDetは重み付き双方向特徴ピラミッドネットワーク(BiFPN)と複合スケーリング法を導入し、パラメータとFLOPsを大幅に削減しながら最先端のCOCO精度を達成する一連の検出器を作成する。
Model efficiency has become increasingly important in computer vision. In this paper, we systematically study neural network architecture design choices for object detection and propose several key optimizations to improve efficiency. First, we propose a weighted bi-directional feature pyramid network (BiFPN), which allows easy and fast multiscale feature fusion; Second, we propose a compound scaling method that uniformly scales the resolution, depth, and width for all backbone, feature network, and box/class prediction networks at the same time. Based on these optimizations and better backbones, we have developed a new family of object detectors, called EfficientDet, which consistently achieve much better efficiency than prior art across a wide spectrum of resource constraints. In particular, with single model and single-scale, our EfficientDet-D7 achieves state-of-the-art 55.1 AP on COCO test-dev with 77M parameters and 410B FLOPs, being 4x - 9x smaller and using 13x - 42x fewer FLOPs than previous detectors. Code is available at https://github.com/google/automl/tree/master/efficientdet.
研究の動機と目的
- 実世界のリソース制約の下で効率的なワンステージ物体検出器の設計選択を調査する。
- 広範なFLOPsとパラメータ範囲で精度と効率を改善するスケーラブルなアーキテクチャを開発する。
- 学習可能な特徴融合メカニズムと統一的なスケーリング戦略を提案し、バックボーン、特徴ネットワーク、予測ヘッドのバランスを取る。
提案手法
- クロススケール接続を備えた重み付き双方向特徴ピラミッドネットワーク(BiFPN)を提案し、効率的なマルチスケール特徴融合を実現する。
- 低遅延のためにsoftmax重み付き融合を置換する高速正規化融合を導入する。
- EfficientNetバックボーンと共有クラス/ボックスヘッドを組み合わせた単一アーキテクチャ(EfficientDet)を採用する。
- 単純な係数 φ に基づき、バックボーンの幅/深さ、BiFPNの深さ/幅、およびボックス/クラス予測ネットワークを共同でスケールさせる複合スケーリング法を開発する。
- BiFPN層と予測ヘッドを繰り返して、さまざまなリソース予算(D0–D7構成)に合わせる。
- COCO検出と Pascal VOC セグメンテーションを用いて、効率と精度の向上を示す評価を行う。
実験結果
リサーチクエスチョン
- RQ1学習可能で効率的なクロススケール特徴融合(BiFPN)は、精度と計算コストの両方で既存のFPNバリアントを上回ることができるか。
- RQ2バックボーン、特徴ネットワーク、予測ヘッド全体にわたる原理的な複合スケーリング戦略は、複数のリソース制約下での精度と効率のトレードオフを優越させるか。
- RQ3EfficientNetのようなバックボーンと共有クラス/ボックスヘッドは、全体の検出器の効率にどのように寄与するか。
- RQ4重み付きと非重み付きの特徴融合の影響は性能と速度にどのように現れるか。
主な発見
- EfficientDet-D7xはCOCO test-devで55.1 APを達成し、77Mパラメータと410B FLOPsで、従来の検出器に比べて非常に少ない計算量とパラメータで優れた精度を示す。
- 重み付き特徴融合を備えたBiFPNは、NAS-FPNやPANetなど他のクロススケールネットワークよりも少ないパラメータとFLOPsでより高い精度を達成する。
- 高速正規化融合はsoftmaxベースの融合と同等の精度を提供しつつ、GPU上で最大約30%速く動作し、エンドツーエンドの効率を向上させる。
- バックボーン、BiFPN、予測ヘッドを横断的に複合スケーリングすることで、単一次元のスケーリング手法よりも精度と効率のトレードオフが良好になる。D0–D7構成は広範なリソース予算をカバーする。
- EfficientNetバックボーンとBiFPNおよび共有ボックス/クラスヘッドを組み合わせることで、COCOおよびVOCタスク全体でモデルサイズとFLOPsを大幅に削減しつつ、精度を維持または向上させる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。