QUICK REVIEW

[論文レビュー] Pix2seq: A Language Modeling Framework for Object Detection

Ting Chen, Saurabh Saxena|arXiv (Cornell University)|Sep 22, 2021

Multimodal Machine Learning Applications参考文献 58被引用数 128

ひとこと要約

Pix2Seqは、画像入力から境界ボックスとクラスラベルを表す離散トークンの列を生成する言語モデリングタスクとしてオブジェクト検出を再定義し、シンプルで汎用的なアーキテクチャでCOCOの結果と競合する。

ABSTRACT

We present Pix2Seq, a simple and generic framework for object detection. Unlike existing approaches that explicitly integrate prior knowledge about the task, we cast object detection as a language modeling task conditioned on the observed pixel inputs. Object descriptions (e.g., bounding boxes and class labels) are expressed as sequences of discrete tokens, and we train a neural network to perceive the image and generate the desired sequence. Our approach is based mainly on the intuition that if a neural network knows about where and what the objects are, we just need to teach it how to read them out. Beyond the use of task-specific data augmentations, our approach makes minimal assumptions about the task, yet it achieves competitive results on the challenging COCO dataset, compared to highly specialized and well optimized detection algorithms.

研究の動機と目的

一般的な、タスクに依存しないオブジェクト検出アプローチを動機づけ、手作りのアーキテクチャと損失設計を最小化する。
境界ボックスとクラスラベルというオブジェクト記述を離散トークンの列として表現する。
エンコーダ–デコーダモデルを最大尤度で訓練すれば、タスク特化の事前知識なしにピクセル入力から物体を検出できることを示す。
シーケンス拡張とトークンベースの量子化がCOCOで競争力のある性能を実現し、より大規模データセットでの事前学習の利点を示す。

提案手法

境界ボックスを五トークン列 [y_min, x_min, y_max, x_max, c] に量子化し、ビンの共通語彙とクラストークンを使用。
複数のオブジェクト記述を、オブジェクトの順序をランダムにしてEOSトークンを付けた単一のシーケンスに直列化。
画像認識用のエンコーダ（image percept）＋Transformerデコーダを用いてトークンを自己回帰的に生成し、トークン尤度を最大化。
画像と前のトークンに条件付けしたトークンに対して、簡易なソフトマックス交差エントロピー損失で訓練（最大尤度）。
シーケンス拡張を適用し、入力シーケンスに合成ノイズオブジェクトを注入し、ターゲットでノイズとしてラベリングして再現率とロバスト性を向上。
推論時にはEOSが生成されるまでトークンをサンプリング（例：nucleus sampling）し、生成トークン列から境界ボックスとラベルを取り出してデ-量子化。

実験結果

リサーチクエスチョン

RQ1画像入力に条件付けられた言語モデリング問題として、オブジェクト検出は効果的に定式化できるか？
RQ2タスク特化のオブジェクト提案や損失を用いず、トークンベースの境界ボックスとクラス表現を持つ汎用のエンコーダ–デコーダがCOCOで競争力を発揮するか？
RQ3シーケンス拡張とオブジェクト順序のランダム性が検出のrecallとprecisionに与える影響は？
RQ4より大規模な検出データセットでの事前学習はCOCOの性能へどのように影響するか？
RQ5境界ボックスのトークンベース量子化を用いる場合の精度とモデル容量のトレードオフは？

主な発見

Method	Backbone	#params	AP	AP50	AP75	AP_S	AP_M	AP_L
Faster R-CNN	R50-FPN	42M	40.2	61.0	43.8	24.2	43.5	52.0
Faster R-CNN+	R50-FPN	42M	42.0	62.1	45.5	26.6	45.4	53.4
DETR	R50	41M	42.0	62.4	44.2	20.5	45.8	61.1
Pix2seq (Ours)	R50	37M	43.0	61.0	45.6	25.1	46.9	59.4
Faster R-CNN	R101-FPN	60M	42.0	62.5	45.9	25.2	45.6	54.6
Faster R-CNN+	R101-FPN	60M	44.0	63.9	47.8	27.2	48.1	56.0
DETR	R101	60M	43.5	63.8	46.4	21.9	48.0	61.8
Pix2seq (Ours)	R101	56M	44.5	62.8	47.5	26.0	48.2	60.3
Faster R-CNN	R50-DC5	166M	39.0	60.5	42.3	21.4	43.5	52.5
Faster R-CNN+	R50-DC5	166M	41.1	61.4	44.3	22.9	45.9	55.0
DETR	R50-DC5	41M	43.3	63.1	45.9	22.5	47.3	61.1
Pix2seq (Ours)	R50-DC5	38M	43.2	61.0	46.1	26.6	47.0	58.6
DETR	R101-DC5	60M	44.9	64.7	47.7	23.7	49.5	62.3
Pix2seq (Ours)	R101-DC5	57M	45.0	63.2	48.6	28.2	48.9	60.4

Pix2SeqはCOCOにおいてFaster R-CNNおよびDETRと競合する結果を、複数のバックボーンと設定で達成。
ResNet-50ではAP 43.0、AP75 45.6を達成し、いくつかの基準において一部の指標で基準より上回る; ResNet-101ではAP 44.5、AP75 47.5を観測。
Objects365で事前学習後にCOCOでファインチューニングすると大きな利得が得られ、ViT-Lは1333x1333でAP 50.0を達成（ファインチューニングされた構成の中で最良）。
500以上のビンでの量子化は、長辺640時にビンあたり1.3ピクセルの高精度境界ボックスを提供し、顕著な損失なし、訓練中のランダムオブジェクト順序はデターミニスティック順序よりAPとARを改善。
シーケンス拡張はrecallを大幅に改善し、ファインチューニング時に特に効果が大きい。APへの影響は控えめまたは小さい。尤度オフセットによるEOSの遅延はrecallを助ける。
推論戦略の中で nucleus sampling は argmax よりrecallを改善。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。