QUICK REVIEW

[論文レビュー] DaTaSeg: Taming a Universal Multi-Dataset Multi-Task Segmentation Model

Xiuye Gu, Yin Cui|arXiv (Cornell University)|Jun 2, 2023

Domain Adaptation and Few-Shot Learning被引用数 10

ひとこと要約

DaTaSeg は、共有マスク提案表現、共有重み、およびテキスト埋め込み分類器を用いて、複数のデータセットとタスク（意味論的、インスタンス、パノプティック）で単一の普遍的なセグメンテーションモデルを訓練し、データセット間の知識移転、弱教師あり監督、オープンボキャブラリ分割を可能にする。

ABSTRACT

Observing the close relationship among panoptic, semantic and instance segmentation tasks, we propose to train a universal multi-dataset multi-task segmentation model: DaTaSeg.We use a shared representation (mask proposals with class predictions) for all tasks. To tackle task discrepancy, we adopt different merge operations and post-processing for different tasks. We also leverage weak-supervision, allowing our segmentation model to benefit from cheaper bounding box annotations. To share knowledge across datasets, we use text embeddings from the same semantic embedding space as classifiers and share all network parameters among datasets. We train DaTaSeg on ADE semantic, COCO panoptic, and Objects365 detection datasets. DaTaSeg improves performance on all datasets, especially small-scale datasets, achieving 54.0 mIoU on ADE semantic and 53.5 PQ on COCO panoptic. DaTaSeg also enables weakly-supervised knowledge transfer on ADE panoptic and Objects365 instance segmentation. Experiments show DaTaSeg scales with the number of training datasets and enables open-vocabulary segmentation through direct transfer. In addition, we annotate an Objects365 instance segmentation set of 1,000 images and will release it as a public benchmark.

研究の動機と目的

複数のデータセットに跨るパノプティック、意味論的、インスタンス分割を扱える普遍的なセグメンテーションモデルを動機づける。
クラス予測を伴うマスク提案という共有中間表現を活用して、タスク間・データセット間の学習を可能にする。
境界ボックスを用いてマスクを監督することで、弱教師ありセグメンテーションを実現し、アノテーションコストを削減する。
共有ネットワークとデータセットを跨ぐ分類器の共通意味埋め込み空間を使用して、知識共有を促進する。
小規模および大規模データセットでの性能向上を実証し、テキスト埋め込みを介してオープンボキャブラリ分割を可能にする。

提案手法

普遍的なセグメンテーション表現を採用する：タスクを超えてインスタンス、"stuff", または領域を具現化できる、クラス予測付きの固定数のマスク提案。
提案にタスク固有の MERGE 操作を適用する（例：パノプティックは stuff をマージ、意味は thing と stuff をマージ、インスタンスは MERGE を必要としない）で、タスクに適した損失を用いたハンガリー法マッチングを使用する。
イテレーションごとに単一のデータセットから全バッチをサンプルする共訓練戦略で訓練し、データをバランスさせるためにデータセットごとのサンプリング比率を設定する。
すべてのネットワークパラメータをデータセットとタスク間で共有しつつ、分類器の共有意味埋め込み空間へデータセットのカテゴリを写像する固定化されたテキストエンコーダを使用する。
予測マスクと境界ボックスの一貫性を強制する射影損失を用いて弱教師付きインスタンス分割を組み込み、bbox のみデータからの学習を可能にする。
ピクセルデコーダを備えたバックボーン（ResNet または ViTDet）を用いてマルチスケール特徴と高解像度特徴マップを生成し、open-vocabulary 分類のためにテキストエンコーダ（CLIP-L/14）を採用する。

実験結果

リサーチクエスチョン

RQ1複数のセグメンテーションデータセットとタスクで訓練された単一のモデルが、データセット固有のモデルを上回ることができるか？
RQ2パラメータを共有し、共通の意味埋め込み空間を使用することで、データセットとタスク間で効果的な知識移転を実現できるか？
RQ3弱い境界ボックス監督を効果的に活用して、データセット横断の学習を通じてセグメンテーション性能を向上させることができるか？
RQ4訓練データセット数やセグメントクエリを増やすことで、オープンボキャブラリ分割とデータセット間の一般化が改善されるか？
RQ5普遍的なマルチデータセット・マルチタスクフレームワークを使用した場合、大規模な画像-テキスト事前学習なしにオープンボキャブラリ分割は実現可能か？

主な発見

DaTaSeg は、評価対象のすべてのデータセット（ADE semantic、COCO panoptic）で、ResNet50 および ViTDet-B バックボーンの両方において、個別に訓練したモデルを上回る。
DaTaSeg は、小規模データセットで大幅な利得をもたらす（ADE20k semantic: +6.1 mIoU with ResNet50 and +5.1 mIoT with ViTDet-B）。
弱教師あり転移が有効になり、ADE20k panoptic を +2.9 PQ (ResNet50) および +5.4 PQ (ViTDet-B)、Objects365 のインスタンス AP をそれぞれ +2.0 および +1.4 向上させる。
DaTaSeg はバックボーンサイズにスケールし、ADE semantic で 53.4–54.0 mIoU、COCO panoptic で 53.5–54.0 PQ をバックボーン間で達成する。
データセット数を増やすとほとんどのターゲットで性能が向上し、複数データセットで訓練されたモデルは未知のデータセットへ転移できる（例：COCO+O365 からの ADE semantic は 18.3 mIoU）。
オープンボキャブラリ機能は、テキスト埋め込み分類器を直接新しいデータセットへ転送することで示され、Cityscapes および Pascal Context で専用のオープンボキャブラリ手法と競合する成績を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。