Skip to main content
QUICK REVIEW

[論文レビュー] DeepID-Net: Deformable Deep Convolutional Neural Networks for Object Detection

Wanli Ouyang, Xiaogang Wang|arXiv (Cornell University)|Dec 17, 2014
Advanced Neural Network Applications参考文献 66被引用数 78
ひとこと要約

この論文は、部分の変形を幾何的制約付きでモデル化する変形制約プーリング(def-pooling)層を導入した、一般物体検出を目的とした可変型深層畳み込みニューラルネットワーク、DeepID-Netを提案する。新たなオブジェクトレベルの事前学習スキーム、モデル平均化、パイプライン最適化を組み合わせることで、ILSVRC2014検出ベンチマーク上での平均平均精度(mAP)をRCNNの31.0%から50.3%まで向上させ、RCNNおよびGoogLeNetを上回る性能を達成した。

ABSTRACT

In this paper, we propose deformable deep convolutional neural networks for generic object detection. This new deep learning object detection framework has innovations in multiple aspects. In the proposed new deep architecture, a new deformation constrained pooling (def-pooling) layer models the deformation of object parts with geometric constraint and penalty. A new pre-training strategy is proposed to learn feature representations more suitable for the object detection task and with good generalization capability. By changing the net structures, training strategies, adding and removing some key components in the detection pipeline, a set of models with large diversity are obtained, which significantly improves the effectiveness of model averaging. The proposed approach improves the mean averaged precision obtained by RCNN \cite{girshick2014rich}, which was the state-of-the-art, from 31\% to 50.3\% on the ILSVRC2014 detection test set. It also outperforms the winner of ILSVRC2014, GoogLeNet, by 6.1\%. Detailed component-wise analysis is also provided through extensive experimental evaluation, which provide a global view for people to understand the deep learning object detection pipeline.

研究の動機と目的

  • 分類用の画像レベル事前学習と物体検出の間のドメインギャップ、特に局所化感度の要件を解消すること。
  • 微分可能で制約付きのプーリング層を用いて、オブジェクトカテゴリーや意味的レベルをまたがる共有の可変型視覚パターンをモデル化すること。
  • 事前学習、変形モデリング、コンテキスト、モデル平均化を統合した包括的パイプラインを構築し、検出性能を向上させること。
  • 標準化された評価下での深層学習物体検出における、コンponentごとの包括的分析を提供すること。

提案手法

  • 空間オフセットの2次罰則関数を用いて部分の変形をモデル化する変形制約プーリング(def-pooling)層を導入する。
  • 分類タスクとは異なり、物体検出タスクの要件に適合させるために、画像レベルラベルの代わりにオブジェクトレベルのアノテーションを用いた新しい事前学習戦略を提案する。
  • 検出タスクの特徴一般化を向上させるために、マルチスケール・マルチクラスの事前学習スキームを採用する。
  • 多様なアーキテクチャ(A-net, Z-net, O-net, G-net)におけるモデル平均化を実施し、耐性と性能を向上させる。
  • 画像分類スコアとボクシングボックス回帰を統合し、コンテキストモデリングによる精度向上を実現する。
  • 領域提案生成に選択的探索(selective search)とエッジボックス(edgeboxes)を適用し、低品質な候補をフィルタリングするためのボクシングボックス拒否処理を実施する。

実験結果

リサーチクエスチョン

  • RQ1画像レベル事前学習と比較して、オブジェクトレベル事前学習は物体検出の特徴表現を向上させるか?
  • RQ2微分可能で変形制約付きのプーリング層は、可変型オブジェクトパーツの検出性能をどのように向上させるか?
  • RQ3各コンポonent(事前学習、def-pooling、コンテキストモデリング、モデル平均化)が全体のmAP向上に果たす寄与度は何か?
  • RQ4多様なモデルを統合した統一パイプラインは、単一モデルや既存SOTAを上回る性能を達成できるか?

主な発見

  • 提案されたオブジェクトレベル事前学習スキームは、画像レベル事前学習と比較してmAPを2.6%向上させ、検出タスクに適していることを示した。
  • Z-netアーキテクチャにおける標準プーリングの置き換えとしてdef-pooling層を導入したところ、mAPが2.5%向上し、変形のモデル化における有効性が裏付けられた。
  • A-netからG-netまでの多様なアーキテクチャにおけるモデル平均化は顕著な貢献を示し、最終アンサンブルではILSVRC2014で50.7%のmAPを達成した。
  • def-pooling、マルチスケール事前学習、コンテキストモデリングを統合した完全なパイプラインは、RCNNベースラインの29.9%からmAPを50.3%まで向上させた。
  • ILSVRC2014優勝モデルであるGoogLeNetをmAPで6.1%上回り、新たなSOTAを確立した。
  • コンponentごとのアブレーション解析から、オブジェクトレベルアノテーションを用いた事前学習とマルチスケールデータを用いた学習が、それぞれ最大の個別寄与度(2.6%および2.2%)を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。