[論文レビュー] Bridging Category-level and Instance-level Semantic Image Segmentation
この論文は、カテゴリレベルの意味セグメンテーションの上にインスタンスセマンティクスを構築する手法で、意味マスクからインスタンスの境界ボックス変換を予測し、難例ピクセルのオンラインブーツトラップを導入して、VOC 2012で最先端の意味IoUと競争力のあるインスタンスセグメンテーションを実現します。
We propose an approach to instance-level image segmentation that is built on top of category-level segmentation. Specifically, for each pixel in a semantic category mask, its corresponding instance bounding box is predicted using a deep fully convolutional regression network. Thus it follows a different pipeline to the popular detect-then-segment approaches that first predict instances' bounding boxes, which are the current state-of-the-art in instance segmentation. We show that, by leveraging the strength of our state-of-the-art semantic segmentation models, the proposed method can achieve comparable or even better results to detect-then-segment approaches. We make the following contributions. (i) First, we propose a simple yet effective approach to semantic instance segmentation. (ii) Second, we propose an online bootstrapping method during training, which is critically important for achieving good performance for both semantic category segmentation and instance-level segmentation. (iii) As the performance of semantic category segmentation has a significant impact on the instance-level segmentation, which is the second step of our approach, we train fully convolutional residual networks to achieve the best semantic category segmentation accuracy. On the PASCAL VOC 2012 dataset, we obtain the currently best mean intersection-over-union score of 79.1%. (iv) We also achieve state-of-the-art results for instance-level segmentation.
研究の動機と目的
- 強力なカテゴリレベルのセグメンテーションを活用したインスタンスセグメンテーション手法の動機づけと開発
- 意味スコアマップを回帰ベースの境界ボックス変換によって候補インスタンス位置へ変換
- オンラインブーツストラッピングによる難例ピクセルの学習を改善し、意味セグメンテーションとインスタンスセグメンテーションの両方を強化
- 大視野と拡張畳み込みを持つ完全畳み込み残差ネットワーク(FCRN)の設計と評価
- 標準ベンチマーク(PASCAL VOC 2012, Cityscapes, PASCAL-Context)で最先端の意味セグメンテーションと競争力のあるインスタンスセグメンテーションを実証
提案手法
- FCNベースの残差ネットワーク(FCRN)を用いてカテゴリ別の意味スコアマップを予測
- 各ピクセルからインスタンス境界ボックスの垂直/水平方向のオフセットと高さ/幅を予測するローカライゼーション/回帰ネットワークを学習
- 予測された境界ボックス変換で意味スコアマップを変換し、ピクセルごとのローカライゼーションマップを得る
- 変換マップに対して非極大抑制を適用してインスタンス仮説を生成
- NMS由来の領域内でスコアを追跡・平均化してインスタンスマスクを形成し、最終結果には領域ベースのNMSを適用
- オンラインブーツストラッピングで簡単なピクセル(意味: p_ij < t に基づく。ローカライゼーション: 予測ボックスと地上 truth ボックスの IoU に基づく)を低減し、難例に焦点
- ResNetを完全畳み込みネットワークへ適応させ、最終プーリングを除去し、アトラス/膨張畳み込みを用いて大視野を確保しつつ解像度を保持し、ピクセル単位の分類に高解像度の特徴マップを実現するFCRNを構築
実験結果
リサーチクエスチョン
- RQ1バウンディングボックス検出器を用いず、カテゴリレベルの意味セグメンテーションを基盤として高品質なインスタンスセグメンテーションを実現できるか?
- RQ2難例ピクセルのオンラインブーツストラップが意味セグメンテーションとインスタンスセグメンテーションの性能を向上させるか?
- RQ3完全畳み込み残差ネットワークにおける深さ、解像度、視野、拡張の設計 choices がセグメンテーション精度にどう影響するか?
- RQ4改善された意味セグメンテーションが下流のインスタンスセグメンテーション性能に与える影響は?
- RQ5提案手法は標準的なベンチマークで境界ボックス検出ベースのインスタンスセグメンテーションと比較してどうか?
主な発見
- 意味セグメンテーションは VOC 2012 で augmented training data を用いて平均 IoU 79.1% の最先端を達成
- インスタンスレベルの結果は VOC 2012 で従来の最高手法と同等かそれ以上で、IoU 0.7 のときの mAP_r が 41.5% から 46.6%へ絶対的に 5.1% 向上
- 難例ピクセルのオンラインブーツストラッピングは Cityscapes を含む性能を顕著に改善、IoU 増分 3.1%
- 最良の意味モデル(ブーツトラップを用いる FCRN)は強い意味精度を示し、それがインスタンスセグメンテーション性能を高める
- COCO で意味ネットワークを事前学習すると、IoU 0.5 での mAP_r が約 2.0% 向上する可能性がある
- 定性的な結果は、境界ボックス検 detector に依存せず、正確な意味の境界と一貫したインスタンスマスクを示す
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。