QUICK REVIEW

[論文レビュー] SOLQ: Segmenting Objects by Learning Queries

Bin Dong, Fangao Zeng|arXiv (Cornell University)|Jun 4, 2021

Advanced Image and Video Retrieval Techniques参考文献 54被引用数 56

ひとこと要約

SOLQは、検出結果のポスト処理（NMS など）を回避するエンドツーエンドのインスタンスセグメンテーションフレームワークをDETRに基づいて構築し、圧縮技術でエンコードされたマスクベクトルを用いた統一クエリ表現を学習してクラス・bbox・マスクを予測します。COCOで最先端の成果を達成し、マルチタスク学習を通じてDETRの検出性能を向上させます。

ABSTRACT

In this paper, we propose an end-to-end framework for instance segmentation. Based on the recently introduced DETR [1], our method, termed SOLQ, segments objects by learning unified queries. In SOLQ, each query represents one object and has multiple representations: class, location and mask. The object queries learned perform classification, box regression and mask encoding simultaneously in an unified vector form. During training phase, the mask vectors encoded are supervised by the compression coding of raw spatial masks. In inference time, mask vectors produced can be directly transformed to spatial masks by the inverse process of compression coding. Experimental results show that SOLQ can achieve state-of-the-art performance, surpassing most of existing approaches. Moreover, the joint learning of unified query representation can greatly improve the detection performance of DETR. We hope our SOLQ can serve as a strong baseline for the Transformer-based instance segmentation. Code is available at https://github.com/megvii-research/SOLQ.

研究の動機と目的

NMSのようなポスト処理を回避するエンドツーエンドのインスタンスセグメンテーションフレームワークを動機づける。
分類、局在化、セグメンテーションを単一の学習可能なクエリ表現に統一する。
高解像度のマスクを圧縮してコンパクトなマスクベクトルにエンコードし、効率的な監視と再構成を実現する。
COCOで競合的または最先端の性能を示しつつ、ジョイント学習によってDETRの検出性能を改善する。

提案手法

DETRをベースに学習可能なオブジェクトクエリを用意する。
Unified Query Representation (UQR) を導入して三つのサブタスク（分類、局在化、セグメンテーション）を並列化する。
空間的マスクを圧縮符号化（DCT、PCA、Sparse Coding）によって低次元のマスクベクトルにエンコードし、監督と再構成を行う。
検出損失とマスクベクトル回帰損失を含むジョイント損失で訓練する（ビ bipartite マッチングには含まれない）。

実験結果

リサーチクエスチョン

RQ1統合クエリ表現はROIベースのポスト処理を伴わないエンドツーエンドのインスタンスセグメンテーションを実現できるか。
RQ2UQRを用いた検出とセグメンテーションのジョイント学習は、DETRと比較して両タスクを改善するか。
RQ3どのマスク圧縮方式が最良のマスク再構成品質とセグメンテーション性能を与えるか。
RQ4複数デコーダーの補助監視がマスクと検出の性能へどう影響するか。

主な発見

Method	Backbone	Epochs	AP seg	AP seg S	AP seg M	AP seg L	AP box	AP box S	AP box M	AP box L
SOLQ, ours	R50	50	39.7	21.5	42.5	53.1	48.7	28.6	51.7	63.1
SOLQ, ours	R101	50	40.9	22.5	43.8	54.6	48.7	28.6	51.7	63.1
SOLQ, ours	Swin-L	50	46.7	29.2	50.1	60.9	56.5	37.6	60.0	70.6

SOLQはCOCO test-devにおいて、インスタンスセグメンテーション（AP seg）と物体検出（AP box）の両方で最先端の性能を達成。
統一クエリ表現の使用により、試験したバックボーン全体でDETRのボックスAPを約2ポイント改善。
DCTを用いたマスク圧縮が、試験した方法の中でセグメンテーションと検出の性能の最良のバランスを提供。
複数デコーダー間の補助マスクベクトル損失は、セグメンテーションと検出の指標の双方を向上させる。
Swin-Lバックボーンを用いたSOLQは高い性能を達成し、例としてCOCO test-devでAP seg 46.7、AP box 60.9。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。