[論文レビュー] Learning to Segment Object Candidates
この論文では、エッジやスーパーセルスを用いず、原始的な画像ピクセルから直接、クラスに依存しないセグメンテーションマスクとオブジェクトの可能性スコアを生成する畳み込みニューラルネットワーク、DeepMaskを提案する。MS COCOで同時に学習し、PASCAL VOCおよびCOCOで評価した結果、最先端のオブジェクト提案性能を達成し、提案数がはるかに少ないにもかかわらず、再現率で顕著に優れている。例えば、100個のDeepMask提案で68.2%のmAPを達成したのに対し、2000個のSelectiveSearch提案では66.9%のmAPであった。
Recent object detection systems rely on two critical steps: (1) a set of object proposals is predicted as efficiently as possible, and (2) this set of candidate proposals is then passed to an object classifier. Such approaches have been shown they can be fast, while achieving the state of the art in detection performance. In this paper, we propose a new way to generate object proposals, introducing an approach based on a discriminative convolutional network. Our model is trained jointly with two objectives: given an image patch, the first part of the system outputs a class-agnostic segmentation mask, while the second part of the system outputs the likelihood of the patch being centered on a full object. At test time, the model is efficiently applied on the whole test image and generates a set of segmentation masks, each of them being assigned with a corresponding object likelihood score. We show that our model yields significant improvements over state-of-the-art object proposal algorithms. In particular, compared to previous approaches, our model obtains substantially higher object recall using fewer proposals. We also show that our model is able to generalize to unseen categories it has not seen during training. Unlike all previous approaches for generating object masks, we do not rely on edges, superpixels, or any other form of low-level segmentation.
研究の動機と目的
- 再現率と効率性の両面で、既存の手法を上回るオブジェクト提案を生成する手法を開発すること。
- 提案生成において、エッジやスーパーセルス、手作業で設計された特徴量といった低レベルのヒントに依存しないこと。
- セグメンテーションマスクとオブジェクトの可能性スコアを同時に予測する統合された畳み込みネットワークを訓練すること。
- 学習中に登場しなかった未観測のオブジェクトカテゴリへの一般化能力を評価すること。
- より少ない提案数で、Fast R-CNNと統合した場合に検出性能が向上することを示すこと。
提案手法
- 共有の畳み込みバックボーンが画像パッチを処理し、セグメンテーションとオブジェクトネス予測の両方の特徴を出力する。
- セグメンテーションブランチは、特徴量から56×56のクラスに依存しないマスクを予測するために、低ランクの全結合層を用いる。
- オブジェクトネスブランチは、別々に微調整されたヘッドを用いて、パッチに完全なオブジェクトが含まれる可能性を予測する。
- マスクとスコア予測の目的関数を統合した損失関数を用いて、エンドツーエンドでモデルを学習する。
- 推論時、ネットワークを複数のスケールで画像全体に密に適用し、順位付けされたセグメンテーション提案を生成する。
- スケール間のバッチ処理とGPU加速により、推論を高速化する。
実験結果
リサーチクエスチョン
- RQ1深層畳み込みネットワークは、低レベルのセグメンテーションに依存せずに、原始的な画像ピクセルから高品質なオブジェクト提案を学習できるか?
- RQ2セグメンテーションとオブジェクトネス予測を同時に最適化することで、分離最適化よりも提案品質が向上するか?
- RQ3学習中に登場しなかったオブジェクトカテゴリ、特にセグメンテーションブランチにおいて一般化できるか?
- RQ4より少ないが高品質な提案を使用することで、下流の検出性能が向上するか?
- RQ5異なるオブジェクトサイズやIoU閾値において、モデルの性能はどのようになるか?
主な発見
- PASCAL VOC 2007で、500個の提案のみを用いて69.9%のmAPを達成し、2000個のSelectiveSearch提案を用いたFast R-CNN(66.9% mAP)を上回った。
- 100個の提案で68.2%のmAPを達成したのに対し、2000個のSelectiveSearch提案では66.9%のmAPであった。
- PASCAL VOC 2007では、1000個の提案での平均再現率(AR@1000)が69.0%に達し、MCG(63.4%)とSelectiveSearch(61.8%)を上回った。
- モデルは良好に一般化できる:20個のPASCALカテゴリでの学習(DeepMask20∗)でも、80個のCOCOカテゴリで学習した完全なDeepMaskモデルと同等の性能を示した。
- IoU閾値が0.7未満の領域では、すべてのベースラインより高い局所化再現率を達成したが、非常に高いIoU(≥0.9)では、マスク出力のダウンサンプリングの影響でわずかに性能が劣った。
- COCOでは1画像あたり1.6秒(PASCALでは1.2秒)の推論時間であり、Geodesic(約1秒)と同等の速さで、MCG(約30秒)よりも著しく高速だった。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。