[論文レビュー] Pix2seq: A Language Modeling Framework for Object Detection
Pix2Seqは、画像入力から境界ボックスとクラスラベルを表す離散トークンの列を生成する言語モデリングタスクとしてオブジェクト検出を再定義し、シンプルで汎用的なアーキテクチャでCOCOの結果と競合する。
We present Pix2Seq, a simple and generic framework for object detection. Unlike existing approaches that explicitly integrate prior knowledge about the task, we cast object detection as a language modeling task conditioned on the observed pixel inputs. Object descriptions (e.g., bounding boxes and class labels) are expressed as sequences of discrete tokens, and we train a neural network to perceive the image and generate the desired sequence. Our approach is based mainly on the intuition that if a neural network knows about where and what the objects are, we just need to teach it how to read them out. Beyond the use of task-specific data augmentations, our approach makes minimal assumptions about the task, yet it achieves competitive results on the challenging COCO dataset, compared to highly specialized and well optimized detection algorithms.
研究の動機と目的
- 一般的な、タスクに依存しないオブジェクト検出アプローチを動機づけ、手作りのアーキテクチャと損失設計を最小化する。
- 境界ボックスとクラスラベルというオブジェクト記述を離散トークンの列として表現する。
- エンコーダ–デコーダモデルを最大尤度で訓練すれば、タスク特化の事前知識なしにピクセル入力から物体を検出できることを示す。
- シーケンス拡張とトークンベースの量子化がCOCOで競争力のある性能を実現し、より大規模データセットでの事前学習の利点を示す。
提案手法
- 境界ボックスを五トークン列 [y_min, x_min, y_max, x_max, c] に量子化し、ビンの共通語彙とクラストークンを使用。
- 複数のオブジェクト記述を、オブジェクトの順序をランダムにしてEOSトークンを付けた単一のシーケンスに直列化。
- 画像認識用のエンコーダ(image percept)+Transformerデコーダを用いてトークンを自己回帰的に生成し、トークン尤度を最大化。
- 画像と前のトークンに条件付けしたトークンに対して、簡易なソフトマックス交差エントロピー損失で訓練(最大尤度)。
- シーケンス拡張を適用し、入力シーケンスに合成ノイズオブジェクトを注入し、ターゲットでノイズとしてラベリングして再現率とロバスト性を向上。
- 推論時にはEOSが生成されるまでトークンをサンプリング(例:nucleus sampling)し、生成トークン列から境界ボックスとラベルを取り出してデ-量子化。
実験結果
リサーチクエスチョン
- RQ1画像入力に条件付けられた言語モデリング問題として、オブジェクト検出は効果的に定式化できるか?
- RQ2タスク特化のオブジェクト提案や損失を用いず、トークンベースの境界ボックスとクラス表現を持つ汎用のエンコーダ–デコーダがCOCOで競争力を発揮するか?
- RQ3シーケンス拡張とオブジェクト順序のランダム性が検出のrecallとprecisionに与える影響は?
- RQ4より大規模な検出データセットでの事前学習はCOCOの性能へどのように影響するか?
- RQ5境界ボックスのトークンベース量子化を用いる場合の精度とモデル容量のトレードオフは?
主な発見
| Method | Backbone | #params | AP | AP50 | AP75 | AP_S | AP_M | AP_L |
|---|---|---|---|---|---|---|---|---|
| Faster R-CNN | R50-FPN | 42M | 40.2 | 61.0 | 43.8 | 24.2 | 43.5 | 52.0 |
| Faster R-CNN+ | R50-FPN | 42M | 42.0 | 62.1 | 45.5 | 26.6 | 45.4 | 53.4 |
| DETR | R50 | 41M | 42.0 | 62.4 | 44.2 | 20.5 | 45.8 | 61.1 |
| Pix2seq (Ours) | R50 | 37M | 43.0 | 61.0 | 45.6 | 25.1 | 46.9 | 59.4 |
| Faster R-CNN | R101-FPN | 60M | 42.0 | 62.5 | 45.9 | 25.2 | 45.6 | 54.6 |
| Faster R-CNN+ | R101-FPN | 60M | 44.0 | 63.9 | 47.8 | 27.2 | 48.1 | 56.0 |
| DETR | R101 | 60M | 43.5 | 63.8 | 46.4 | 21.9 | 48.0 | 61.8 |
| Pix2seq (Ours) | R101 | 56M | 44.5 | 62.8 | 47.5 | 26.0 | 48.2 | 60.3 |
| Faster R-CNN | R50-DC5 | 166M | 39.0 | 60.5 | 42.3 | 21.4 | 43.5 | 52.5 |
| Faster R-CNN+ | R50-DC5 | 166M | 41.1 | 61.4 | 44.3 | 22.9 | 45.9 | 55.0 |
| DETR | R50-DC5 | 41M | 43.3 | 63.1 | 45.9 | 22.5 | 47.3 | 61.1 |
| Pix2seq (Ours) | R50-DC5 | 38M | 43.2 | 61.0 | 46.1 | 26.6 | 47.0 | 58.6 |
| DETR | R101-DC5 | 60M | 44.9 | 64.7 | 47.7 | 23.7 | 49.5 | 62.3 |
| Pix2seq (Ours) | R101-DC5 | 57M | 45.0 | 63.2 | 48.6 | 28.2 | 48.9 | 60.4 |
- Pix2SeqはCOCOにおいてFaster R-CNNおよびDETRと競合する結果を、複数のバックボーンと設定で達成。
- ResNet-50ではAP 43.0、AP75 45.6を達成し、いくつかの基準において一部の指標で基準より上回る; ResNet-101ではAP 44.5、AP75 47.5を観測。
- Objects365で事前学習後にCOCOでファインチューニングすると大きな利得が得られ、ViT-Lは1333x1333でAP 50.0を達成(ファインチューニングされた構成の中で最良)。
- 500以上のビンでの量子化は、長辺640時にビンあたり1.3ピクセルの高精度境界ボックスを提供し、顕著な損失なし、訓練中のランダムオブジェクト順序はデターミニスティック順序よりAPとARを改善。
- シーケンス拡張はrecallを大幅に改善し、ファインチューニング時に特に効果が大きい。APへの影響は控えめまたは小さい。尤度オフセットによるEOSの遅延はrecallを助ける。
- 推論戦略の中で nucleus sampling は argmax よりrecallを改善。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。