Skip to main content
QUICK REVIEW

[論文レビュー] Zoom Out-and-In Network with Recursive Training for Object Proposal

Hongyang Li, Yu Liu|arXiv (Cornell University)|Feb 19, 2017
Advanced Neural Network Applications参考文献 37被引用数 25
ひとこと要約

本論文では、ズームインサブネットを介して高レベルの意味特徴と高解像度のデコンボリューション特徴を統合することで、小物検出を向上させる、再帰的トレーニングを備えた新しいオブジェクト候補手法であるZoom Out-and-In Network with Recursive Training (ZIP) を提案する。さらに、トレーニング中に再帰的回帰を実施することで、提案品質を向上させ、ILSVRC DETおよびMS COCOデータセットにおいて、SOTAの平均リCALLと検出mAPを約2%向上させた。

ABSTRACT

In this paper, we propose a zoom-out-and-in network for generating object proposals. We utilize different resolutions of feature maps in the network to detect object instances of various sizes. Specifically, we divide the anchor candidates into three clusters based on the scale size and place them on feature maps of distinct strides to detect small, medium and large objects, respectively. Deeper feature maps contain region-level semantics which can help shallow counterparts to identify small objects. Therefore we design a zoom-in sub-network to increase the resolution of high level features via a deconvolution operation. The high-level features with high resolution are then combined and merged with low-level features to detect objects. Furthermore, we devise a recursive training pipeline to consecutively regress region proposals at the training stage in order to match the iterative regression at the testing stage. We demonstrate the effectiveness of the proposed method on ILSVRC DET and MS COCO datasets, where our algorithm performs better than the state-of-the-arts in various evaluation metrics. It also increases average precision by around 2% in the detection system.

研究の動機と目的

  • 過剰なダウンサンプリングによる特徴解像度の低さのため、オブジェクト候補ネットワークで小物検出が困難になるという課題に対処すること。
  • 小物および中物に対して局所化精度を向上させるために、高レベルの意味特徴と高解像度特徴を統合すること。
  • 推論時における反復的回帰処理をトレーニング時にも適用することで、トレーニングと推論の間のドメインギャップを埋めること。
  • オブジェクト検出パイプラインにおける、さまざまなオブジェクトスケールにわたる高い平均リCALLとより良い一般化性能を達成すること。

提案手法

  • ネットワークはズームアウト・アンド・インアーキテクチャを採用:深層特徴をデコンボリューションで解像度を向上させ、浅層特徴とマージすることで小物を検出する。
  • アンカースケールごとにクラスタリングし、ストライドが異なる特徴マップ(16, 32, 64)に配置することで、オブジェクトサイズに適合させ、マルチスケール検出を可能にする。
  • デコンボリューションベースのズームインサブネットが、高レベル特徴をアップサンプリングして空間解像度を回復させつつ、意味的コンテンツを保持する。
  • 再帰的トレーニング方式により、推論時と同様の反復的フィーニング処理をトレーニング段階で繰り返し実行する。
  • RoIプーリングを備えた残差ブロックベースの回帰ヘッドを用いて、反復的なバウンディングボックスの最適化を実現し、一般化性能を向上させるために追加の「グレークラス」を導入する。
  • トレーニングパイプラインは、前の反復から生成された中間回帰ターゲットを使用し、推論時と同一の反復的プロセスを保証する。

実験結果

リサーチクエスチョン

  • RQ1デコンボリューションベースの特徴アップサンプリングは、オブジェクト候補ネットワークにおける小物検出を向上させるか?
  • RQ2高レベルの意味特徴と高解像度特徴を統合することは、低レベル特徴のみを用いる場合よりも優れた提案品質をもたらすか?
  • RQ3推論時と同様の反復的プロセスを模倣する再帰的トレーニング戦略は、オブジェクト候補生成における平均リCALLを向上させるか?
  • RQ4再帰的回帰反復回数が、提案品質および推論効率に与える影響は何か?
  • RQ5提案手法が前処理ステップとして使用された場合、検出mAPはどの程度向上するか?

主な発見

  • ZIP手法はILSVRC DETデータセットで95.04%の平均リCALLを達成し、先行するSOTA手法を上回った。
  • MS COCOでは59.45%の平均リCALLを達成し、多様なオブジェクトスケールにわたる強力な性能を示した。
  • T=2回の反復で再帰的回帰を実施した場合、平均リCALLが50.14%から59.45%に向上し、顕著な改善が確認された。
  • R-FCNベースの検出システムに統合した場合、平均精度(mAP)が約2%向上した。
  • アブレーションスタディの結果、複数の解像度からの特徴を連結することは性能を低下させるが、解像度に特化した特徴を用いることで精度が向上することが確認された。
  • 最適な設定は、残差ブロックベースの回帰ヘッドに追加の「グレークラス」を追加し、T=2回の再帰的反復を実行することであった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。