QUICK REVIEW

[論文レビュー] A Unified Sequence Interface for Vision Tasks

Ting Chen, Saurabh Saxena|arXiv (Cornell University)|Jun 15, 2022

Multimodal Machine Learning Applications被引用数 49

ひとこと要約

この論文は、4つの中核ビジョンタスク（物体検出、インスタンスセグメンテーション、キーポイント検出、画像キャプショニング）をピクセル-to-sequence問題として統一する単一のエンコーダ–デコーダモデルを提案し、共有トークンベースのインターフェイスとタスクプロンプトを用いて、タスク特化ヘッドなしで競争力のある結果を達成します。

ABSTRACT

While language tasks are naturally expressed in a single, unified, modeling framework, i.e., generating sequences of tokens, this has not been the case in computer vision. As a result, there is a proliferation of distinct architectures and loss functions for different vision tasks. In this work we show that a diverse set of "core" computer vision tasks can also be unified if formulated in terms of a shared pixel-to-sequence interface. We focus on four tasks, namely, object detection, instance segmentation, keypoint detection, and image captioning, all with diverse types of outputs, e.g., bounding boxes or dense masks. Despite that, by formulating the output of each task as a sequence of discrete tokens with a unified interface, we show that one can train a neural network with a single model architecture and loss function on all these tasks, with no task-specific customization. To solve a specific task, we use a short prompt as task description, and the sequence output adapts to the prompt so it can produce task-specific output. We show that such a model can achieve competitive performance compared to well-established task-specific models.

研究の動機と目的

多様なビジョンタスクを統一されたピクセル-to-シーケンスインターフェースで表現できることを動機づけ、実証する。
複数のタスクに適用可能な単一のモデルアーキテクチャと損失関数を、タスク固有のヘッドなしで開発する。
タスクプロンプトが同じ出力シーケンスを異なるタスク要件に適応させることを示す。
COCOでのマルチタスク学習がすべてのタスクで競争力のある性能を維持するかを評価する。

提案手法

各タスクを、共有語彙を用いて離散トークンのシーケンス（境界ボックス、ポリゴン、キーポイント、またはキャプション）として表現する。
視覚バックボーンとタスクプロンプトで条件付けされたTransformerデコーダを備えたエンコーダー–デコーダーアーキテクチャを使用する。
損失でプロンプトトークンの重みをゼロとしたプロンプトと出力を単一のシーケンスに連結して訓練する。
自己回帰生成後、タスク固有のデトークナイゼーションで出力をデコードする。
データミックスまたはバッチミックスを通じてタスクを結合する。逐次的にタスクの重みを調整して和を1にする。
推論は nucleus sampling を用いて出力トークンを生成する。デトークナイゼーションはボックス、マスク、キーポイント、またはキャプションを復元する。

実験結果

リサーチクエスチョン

RQ1物体検出、インスタンスセグメンテーション、キーポイント検出、画像キャプショニングを、タスク固有のヘッドなしで単一のピクセル-to-シーケンスモデルで解決できるか。
RQ2統一モデルの性能はCOCOで複数タスクにわたり、専門ベースラインとどう比較されるか。
RQ3タスクプロンプトと学習混合戦略がマルチタスク学習の有効性に与える影響は何か。
RQ4画像サイズの増加や学習重みの変更はマルチタスク性能を向上させるか。

主な発見

物体検出	インスタンス分割	キーポイント検出	キャプショニング
Faster R-CNN	-	-	-
Faster R-CNN+	-	-	-
DETR	-	-	-
Mask R-CNN	39.8	37.1	63.1	-
Mask R-CNN (non-local)	45.0	40.3	66.5	-
Transformer-based captioner	-	-	-	34.3
Pix2Seq v2 single task (640×640)	43.8	37.3	68.0	33.9
Pix2Seq v2 single task (1024×1024)	45.6	38.7	67.4	34.0
Pix2Seq v2 multi-tasks (640×640)	44.2	36.9	65.0	34.3
Pix2Seq v2 multi-tasks (1024×1024)	46.5	38.2	64.8	34.9

マルチタスクモデルは、4つのタスクすべてにおいて、専門的なアーキテクチャを用いずにCOCOでタスク固有のベースラインと競争力のある結果を達成する。
入力サイズを大きくすると一般にタスク全体の性能が向上するが、キーポイント検出はタスク固有のクロッピングの恩恵を受ける。
インスタンスセグメンテーションについては複数のシーケンスをサンプリングし、得られたマスクを平均化することで予測を向上させることができる。
適切なタスク重みを付けた全タスク共通の1つのモデルは、これらのタスクを単一タスクの変種に近い性能で対処できる。
このアーキテクチャは共有語彙(35k)と単一デコーダを用い、プロンプトを介してタスク固有の出力を生成する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。