[論文レビュー] Described Object Detection: Liberating Object Detection with Flexible Expressions
本論文は Described Object Detection (DOD) とデータセット D3 を紹介し、柔軟な言語表現で記述されたオブジェクトを検出する能力を評価し、現状の SOTA 手法を分析し、OFA-DOD を存在/不在および複数対象の説明を扱う上でより強力なベースラインとして提案する。
Detecting objects based on language information is a popular task that includes Open-Vocabulary object Detection (OVD) and Referring Expression Comprehension (REC). In this paper, we advance them to a more practical setting called Described Object Detection (DOD) by expanding category names to flexible language expressions for OVD and overcoming the limitation of REC only grounding the pre-existing object. We establish the research foundation for DOD by constructing a Description Detection Dataset ($D^3$). This dataset features flexible language expressions, whether short category names or long descriptions, and annotating all described objects on all images without omission. By evaluating previous SOTA methods on $D^3$, we find some troublemakers that fail current REC, OVD, and bi-functional methods. REC methods struggle with confidence scores, rejecting negative instances, and multi-target scenarios, while OVD methods face constraints with long and complex descriptions. Recent bi-functional methods also do not work well on DOD due to their separated training procedures and inference strategies for REC and OVD tasks. Building upon the aforementioned findings, we propose a baseline that largely improves REC methods by reconstructing the training data and introducing a binary classification sub-task, outperforming existing methods. Data and code are available at https://github.com/shikras/d-cube and related works are tracked in https://github.com/Charles-Xie/awesome-described-object-detection.
研究の動機と目的
- 短いカテゴリ名や既存のREC仮説を超える柔軟な言語表現を用いた実務的な検出設定を動機づける。
- 完全でデータセット全体の annotation を含む D3(不存在表現を含む)を作成・公開する。
- D3 に対して既存のOVD、REC、二機能性手法を系統的に評価し、DOD シナリオでの限界を明らかにする。
- REC 手法をデータ再構成と二値関連性タスクで強化し、否定例をより適切に拒絶し、複数ターゲットを扱える堅牢なベースライン(OFA-DOD)を提案する。
提案手法
- 完全なアノテーション、 unrestricted な言語表現、欠如表現を含む検出様式のベンチマーク D3 を構築・注釈付けする。
- D3 上でOVD、REC、二機能ファミリのSOTA手法を評価し、ベースラインを確立する。
- Granularity decomposition(粒度分解)、REC の再構成訓練データ、タスク分解を備えた修正OFAベースラインで OFA-DOD を提案・実装し、二値的否定拒否を可能にする。
- 粒度分解、REC の再構成データ、タスク分解の寄与を定量化するアブレーションを実施する。
- intra-scenario および inter-scenario 設定で multi-label mean average precision (mAP) を用い、 FULL、PRES、ABS 評価モードを用いる。
- 各画像のインスタンス数(なし、1つ、複数)および参照長(短い〜非常に長い)を変化させた性能を分析する。
実験結果
リサーチクエスチョン
- RQ1D3 によって導入された Described Object Detection (DOD) 設定で、既存の OVD、REC、二機能性手法はどのように性能を発揮するか?
- RQ2柔軟な言語表現を用いてオブジェクトを記述した場合の、欠如表現を含む現行手法の主な失敗モードは何か?
- RQ3OFA を基盤とした修正ベースライン(OFA-DOD)は、DOD における局所化、複数ターゲットの扱い、否定参照の拒否を改善できるか?
- RQ4存在描述と不存在描述は検出性能と信頼度補正にどのような影響を与えるか?
- RQ5説明長と画像あたりのインスタンス数が手法の性能に与える影響はどの程度か?
主な発見
| タスク | 手法 | FULL mAP | PRES mAP | ABS mAP | インターシナリオ FULL mAP | インターシナリオ PRES mAP | インターシナリオ ABS mAP |
|---|---|---|---|---|---|---|---|
| REC | OFA_base | 3.4 | 3.0 | 4.3 | 0.1 | 0.1 | 0.1 |
| REC | OFA_large | 4.2 | 4.1 | 4.6 | 0.1 | 0.1 | 0.1 |
| OVD | CORA_R50 | 6.2 | 6.7 | 5.0 | 2.0 | 2.2 | 1.3 |
| OVD | OWL-ViT_base | 8.6 | 8.5 | 8.8 | 3.2 | 3.7 | 4.7 |
| OVD | OWL-ViT_large | 9.6 | 10.7 | 6.4 | 2.5 | 2.9 | 2.1 |
| Bi-functional | UNINEXT_large | 17.9 | 18.6 | 15.9 | 2.9 | 3.1 | 2.5 |
| Bi-functional | UNINEXT_huge | 20.0 | 20.6 | 18.1 | 3.3 | 3.9 | 1.6 |
| Bi-functional | G-DINO_tiny | 19.2 | 18.5 | 21.2 | 2.3 | 2.5 | 2.1 |
| Bi-functional | G-DINO_base | 20.7 | 20.1 | 22.5 | 2.7 | 2.4 | 3.5 |
| DOD | OFA-DOD_base | 21.6 | 23.7 | 15.4 | 5.7 | 6.9 | 2.3 |
- 現行のREC 手法は D3 での信頼度推定と否定の拒否が不十分で、特に多ターゲット状況で性能が低い。
- OVD 手法は D3 で REC より優れるが、長く複雑な説明には苦戦する。
- 二機能手法は一部のベースラインを上回るが、インターシナリオ評価と否定拒否にはまだ課題がある。
- 提案された OFA-DOD ベースラインは D3 に対する REC の性能を大幅に向上させ、複数ターゲットと否定拒否の扱いを改善するが、すべての指標で現状最先端とは言えない。
- アブレーションにより、粒度分解、REC の再構成データ、タスク分解のそれぞれが性能向上に寄与することが示される。多タスク訓練データ(検出、画像→テキスト、MLM)は結果に影響を与え、MLM は一部設定で予想より影響が小さい。
- 存在表現は大半の手法にとって不存在表現よりも扱いやすく、REC 手法は信頼度スコアの信頼性が低い;一方 OFA-DOD はスコア全体で真陽性と偽陽性の区分をより明確に提供する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。