[論文レビュー] TaskCLIP: Extend Large Vision-Language Model for Task Oriented Object Detection
TaskCLIPは、VLMベースの2段階フレームワークを提案し、トータスク指向の物体検出を実現。視覚と形容詞ベースのテキスト埋め込みをトランスフォーマーアライナーとグループ選択機構で整合させ、RTX 40901枚でCOCO-Tasksにおける最先端を達成。
Task-oriented object detection aims to find objects suitable for accomplishing specific tasks. As a challenging task, it requires simultaneous visual data processing and reasoning under ambiguous semantics. Recent solutions are mainly all-in-one models. However, the object detection backbones are pre-trained without text supervision. Thus, to incorporate task requirements, their intricate models undergo extensive learning on a highly imbalanced and scarce dataset, resulting in capped performance, laborious training, and poor generalizability. In contrast, we propose TaskCLIP, a more natural two-stage design composed of general object detection and task-guided object selection. Particularly for the latter, we resort to the recently successful large Vision-Language Models (VLMs) as our backbone, which provides rich semantic knowledge and a uniform embedding space for images and texts. Nevertheless, the naive application of VLMs leads to sub-optimal quality, due to the misalignment between embeddings of object images and their visual attributes, which are mainly adjective phrases. To this end, we design a transformer-based aligner after the pre-trained VLMs to re-calibrate both embeddings. Finally, we employ a trainable score function to post-process the VLM matching results for object selection. Experimental results demonstrate that our TaskCLIP outperforms the state-of-the-art DETR-based model TOIST by 3.5% and only requires a single NVIDIA RTX 4090 for both training and inference.
研究の動機と目的
- 視覚的処理とデータの希少性・不均衡の下でのタスク駆動型推論の必要性を動機付ける。
- 予め学習済みのビジョン-言語モデルを活用して頑健で一般化可能な検出を実現する、2段階のフレームワークを提案する。
- 視覚属性(形容詞)と画像埋め込みを細粒度なアライメントモジュールで結ぶ。
- VLMを凍結したまま埋め込みをトランスフォーマーアライナーで再調整し、学習コストを削減し一般化を向上させる。
提案手法
- 各タスクに対して大規模言語モデルを用いてタスク関連の視覚属性を抽出する。
- 一般的な物体検出器で境界ボックスを生成し、VLM処理用に画像パッチを切り出す。
- トランスフォーマーを用いるアライナーを適用して、視覚埋め込みとテキスト埋め込みを再調整し、形容詞と視覚属性を整合させる。
- 再調整されたテキストと視覚埋め込みの積をとってアフィニティ行列を計算し、境界ボックス-属性の組み合わせをスコア付けする。
- 自己注意を用いた学習可能なスコア関数を用いて、タスク適性を各境界ボックスごとにスコア化する。
- グループごとに選択する機構を用いて、同一COCOクラス内で高信頼度予測を伝搬させ、偽陰性を抑制する。
実験結果
リサーチクエスチョン
- RQ1 frozenな大規模ビジョン-言語モデルを活用する2段階フレームワークはCOCO-TasksでDETRベースのTOISTを上回れるか?
- RQ2形容詞(視覚属性)の埋め込みを物体の視覚特徴と整合させて、タスク指向の選択を改善できるか?
- RQ3グルーピング選択機構はCOCO-Tasksにおけるクラス不均衡を緩和し偽陰性を減らせるか?
主な発見
| Algorithm | Task1 | Task2 | Task3 | Task4 | Task5 | Task6 | Task7 | Task8 | Task9 | Task10 | Task11 | Task12 | Task13 | Task14 | Mean |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| GGNN | 36.6 | 29.8 | 40.5 | 37.6 | 41.0 | 17.2 | 43.6 | 17.9 | 21.0 | 40.6 | 22.3 | 28.4 | 39.1 | 40.7 | 32.6 (+0.0) |
| TOIST | 44.0 | 39.5 | 46.7 | 43.1 | 53.6 | 23.5 | 52.8 | 21.3 | 23.0 | 46.3 | 33.1 | 41.7 | 48.1 | 52.9 | 41.3 (+8.5) |
| TOIST† | 45.8 | 40.0 | 49.4 | 49.6 | 53.4 | 26.9 | 58.3 | 22.6 | 32.5 | 50.0 | 35.5 | 43.7 | 52.8 | 56.2 | 44.1 (+11.3) |
| CoTDet‡ | 44.7 | 40.1 | 47.6 | 44.2 | 54.1 | 25.2 | 54.1 | 22.9 | 32.9 | 49.1 | 36.1 | 42.9 | 51.8 | 55.3 | 42.9 (+10.3) |
| TaskCLIP | 44.9 | 44.1 | 45.4 | 56.5 | 50.2 | 32.3 | 66.0 | 19.7 | 38.0 | 52.1 | 37.8 | 41.6 | 44.9 | 64.0 | 45.5 (+12.9) |
| TaskCLIP* | 45.1 | 45.1 | 48.6 | 59.1 | 52.9 | 33.0 | 67.3 | 22.1 | 39.0 | 55.7 | 39.9 | 43.5 | 46.5 | 66.3 | 47.4 (+14.8) |
- TaskCLIPはCOCO-TasksでmAP@0.5のDETRベースTOISTより3.5%上回る。
- 単一のRTX 4090でTaskCLIPは学習と推論を効率的に行い、より重いDETRベースモデルを上回る。
- トランスフォーマーアライナーの導入により、物体の視覚情報と形容詞属性の整合が大幅に改善され、ベースラインに対して約20%のmAP@0.5向上を達成。
- グルーピング選択機構は不均衡データで偽陰性を減らし、mean AP@0.5を改善する。
- TaskCLIPはCOCO-Tasksでmean AP@0.5が45.5%(TaskCLIP)および47.4%(TaskCLIP*、最適化あり)を達成とTable 3に報告されている。
- VLMと物体検出器のエンドツーエンド微調整を回避することで、エンドツーエンドの訓練効率を維持する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。