QUICK REVIEW

[論文レビュー] BlendMask: Top-Down Meets Bottom-Up for Instance Segmentation

Hao Chen, Kunyang Sun|arXiv (Cornell University)|Jan 2, 2020

Advanced Neural Network Applications参考文献 26被引用数 52

ひとこと要約

BlendMask は、完全に畳み込みパイプラインでトップダウンのインスタンスレベル情報とボトムアップの高解像度ピクセル特徴を融合するブレンダーモジュールを導入し、マスク品質で Mask R-CNN を上回り、COCO で約 20% 高速化を実現します。軽量版は 25 FPS で 34.2% mAP を達成します。

ABSTRACT

Instance segmentation is one of the fundamental vision tasks. Recently, fully convolutional instance segmentation methods have drawn much attention as they are often simpler and more efficient than two-stage approaches like Mask R-CNN. To date, almost all such approaches fall behind the two-stage Mask R-CNN method in mask precision when models have similar computation complexity, leaving great room for improvement. In this work, we achieve improved mask prediction by effectively combining instance-level information with semantic information with lower-level fine-granularity. Our main contribution is a blender module which draws inspiration from both top-down and bottom-up instance segmentation approaches. The proposed BlendMask can effectively predict dense per-pixel position-sensitive instance features with very few channels, and learn attention maps for each instance with merely one convolution layer, thus being fast in inference. BlendMask can be easily incorporated with the state-of-the-art one-stage detection frameworks and outperforms Mask R-CNN under the same training schedule while being 20% faster. A light-weight version of BlendMask achieves $ 34.2% $ mAP at 25 FPS evaluated on a single 1080Ti GPU card. Because of its simplicity and efficacy, we hope that our BlendMask could serve as a simple yet strong baseline for a wide range of instance-wise prediction tasks. Code is available at https://git.io/AdelaiDet

研究の動機と目的

粗いインスタンスレベル情報と細粒度ピクセル詳細を組み合わせた、密で完全畳み込みのインスタンスセグメンテーションフレームワークを動機づけ、開発する。
各インスタンスマスクのために、ベースとアテンションを効率的に統合する軽量なブレンダーモジュールを設計する。
BlendMask をワンステージ検出器（FCOSベース）と統合し、COCO で評価して、精度と速度の点で二段階法を上回る。
BlendMask が高解像度のマスク予測をサポートし、最小限の修正でパンオプティックセグメンテーションへ拡張できることを示す。

提案手法

特徴マップ上に一連のベースを予測するボトムモジュールを提案する。
予測された各ボックスに対してインスタンスレベルのアテンションマップを生成するトップレイヤを追加する。
提案によってベースを切り出し、アテンションをアップサンプルし、正規化して、ベースを線形にブレンドして最終マスクを生成するブレンダーを導入する。
RoIPool/RoIAlign ベースのクロップと提案ごとのアテンション誘導結合を用いて、各インスタンスマスクを生成する。
解像度、ベース数、および特徴源を実験して精度と速度のバランスを取る。
ResNet バックボーンと DeepLabV3+ をボトムモジュールデコーダとして用いて COCO で評価する。YOLACT、FCIS、Mask R-CNN、TensorMask と比較する。

実験結果

リサーチクエスチョン

RQ1トップダウンのアテンション誘導ブレンダーは、完全畳み込みパイプラインでボトムアップのベースと融合したとき、密でピクセル単位のインスタンスマスクを改善できるか。
RQ2ボトム・トップ解像度、ベース数、および入力特徴がマスクの精度と速度に与える影響は何か。
RQ3COCO での精度と推論時間において、BlendMask は既存のワンステージおよびツーステージ手法と比較してどうか。
RQ4最小限の変更でBlendMaskをパンオプティックセグメンテーションに拡張できるか。

主な発見

BlendMask は COCO で ResNet-50 で 37.0% mAP、ResNet-101 で 38.4% mAP を達成し、同じトレーニングスケジュール下で Mask R-CNN を上回りつつ約 20% 高速である。
軽量版は COCO で 25 FPS で 34.2% mAP に到達し、リアルタイム性能の強さを示している。
ブレンダーは ablations で YOLACT と FCIS を大幅に上回る。
トップアテンション解像度 M を増やすと、領域サイズの約1/4付近で性能が飽和点まで向上する。ボトムベース解像度は時間コストを抑えつつ増やせる。
BlendMask は Mask R-CNN（通常 28x28）より高解像度のマスク（56x56）を生成でき、エッジをシャープにし、インスタンス識別性を向上させる。
BlendMask はインスタンスマスクとセマンティックセグメンテーションを組み合わせることでパンオプティックセグメンテーションへ容易に拡張でき、COCO パノプティック結果において Panoptic-FPN のベースラインを上回る改善をもたらす。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。