[論文レビュー] BoxInst: High-Performance Instance Segmentation with Box Annotations
BoxInstは、予測マスクと教師強度ボックス間の投影一貫性、および色が類似した隣接ピクセル間のペairワイズラベル一貫性の2つの構成要素を持つ新しいマスク損失を導入することで、ボクシングボックスアノテーションのみを用いて高精度なインスタンスセグメンテーションを実現する。このアプローチにより、マスクアノテーションを一切使用しない状態でCOCOで33.2%のマスクAPを達成し、従来の弱教師あり手法を著しく上回る。
We present a high-performance method that can achieve mask-level instance segmentation with only bounding-box annotations for training. While this setting has been studied in the literature, here we show significantly stronger performance with a simple design (e.g., dramatically improving previous best reported mask AP of 21.1% in Hsu et al. (2019) to 31.6% on the COCO dataset). Our core idea is to redesign the loss of learning masks in instance segmentation, with no modification to the segmentation network itself. The new loss functions can supervise the mask training without relying on mask annotations. This is made possible with two loss terms, namely, 1) a surrogate term that minimizes the discrepancy between the projections of the ground-truth box and the predicted mask; 2) a pairwise loss that can exploit the prior that proximal pixels with similar colors are very likely to have the same category label. Experiments demonstrate that the redesigned mask loss can yield surprisingly high-quality instance masks with only box annotations. For example, without using any mask annotations, with a ResNet-101 backbone and 3x training schedule, we achieve 33.2% mask AP on COCO test-dev split (vs. 39.1% of the fully supervised counterpart). Our excellent experiment results on COCO and Pascal VOC indicate that our method dramatically narrows the performance gap between weakly and fully supervised instance segmentation. Code is available at: https://git.io/AdelaiDet
研究の動機と目的
- 完全教師ありと弱教師ありのインスタンスセグメンテーションの性能ギャップを、ボクシングボックスアノテーションのみで学習することで埋める。
- インスタンスセグメンテーションにおける高価なピクセル単位のマスクアノテーションの必要性を排除する。
- COCOのような大規模ベンチマークで、従来の弱教師ありアプローチを上回る、単純でワンショットかつ効率的な手法を開発する。
- 部分的なマスクアノテーションとボックスアノテーションを用いた半教師あり設定で、未学習のカテゴリに一般化できるようにする。
- 文字セグメンテーションなどの他のタスクに対しても、ボックスレベルの監視のみで一般性を示す。
提案手法
- CondInstにおける標準的なピクセル単位のマスク損失を、2つの項(投影一貫性とペアワイズラベル一貫性)から成る新しい損失に置き換える。
- 予測マスクと教師強度ボックスの水平および垂直投影の乖離を最小化する投影損失を用いる。
- 色の類似性に基づき、隣接ピクセル(膨張率2)間でラベルの一貫性を促進するペアワイズ損失を適用し、ノイズを低減するために信頼性の高いペアのみを活用する。
- 色の類似性の閾値を定義して、信頼性の高いピクセルペアを特定し、同様のラベルである可能性が高いペアのみが損失に寄与するようにする。
- 繰り返しの最適化やGrabCutのような外部ツールを必要とせず、ボックスアノテーションのみでエンドツーエンドにモデルを学習する。
- フレームワークの完全畳み込み構造を活用して、GrabCutのような遅く微分不能な手法とは異なり、GPU並列で高速な推論を実現する。
実験結果
リサーチクエスチョン
- RQ1ボクシングボックスアノテーションのみでインスタンスセグメンテーションを効果的に学習でき、完全教師あり手法に近い性能を達成できるか?
- RQ2単純でワンショットの損失設計が、COCOのような大規模ベンチマークで、複雑で反復的な弱教師あり手法を上回れるか?
- RQ3提案された損失構成要素(投影一貫性とペアワイズラベル一貫性)が、マスクアノテーションなしで高品質なマスク予測を共同で可能にするか?
- RQ4部分的なマスクアノテーションが利用可能な状況で、モデルが未学習のカテゴリにどの程度一般化できるか?
- RQ5この手法は、ボックスレベルの監視のみで、文字セグメンテーションなどの他のセグメンテーションタスクに拡張可能か?
主な発見
- BoxInstは、ボクシングボックスアノテーションのみとResNet-101バックボーン、3×学習スケジュールを用いてCOCOのテストデブスプリットで33.2%のマスクAPを達成し、前回の最高記録21.1%を大きく上回った。
- 投影損失のみを用いる場合、マスクAPは31.8%に向上し、投影損失とペアワイズ損失の両方を適用した場合は32.5%にまで上昇し、二重損失設計の有効性を示した。
- 半教師あり設定では、20クラスでマスクアノテーション、残り60クラスでボックスアノテーションを用いて学習した場合、未学習の60クラスCOCOカテゴリで30.9%のマスクAPを達成し、ベースライン手法を著しく上回った。
- 60クラスでマスクアノテーション、20クラスでボックスアノテーションを用いて学習した場合、未学習クラスで35.7%のマスクAPを達成し、優れた一般化能力を示した。
- ICDAR 2019 ReCTSデータセットにおける定性的な結果から、BoxInstは文字ボックスアノテーションのみで高品質な文字マスクを生成でき、本手法の一般性を裏付けた。
- BoxInstはGrabCutベースの手法(例:36.5% vs. 19.0%)よりも顕著に高速であり、完全に微分可能であるため、現代のGPU上で効率的なエンドツーエンド学習が可能である。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。