[논문 리뷰] TaskCLIP: Extend Large Vision-Language Model for Task Oriented Object Detection
TaskCLIP은 비전-언어 기반의 두 단계 프레임워크를 도입하여 작업 지향 객체 탐지를 수행하고, 비전 및 형용사 기반 텍스트 임베딩을 트랜스포머 정렬기와 선별-그룹화 메커니즘과 정렬하여, 단일 RTX 4090으로 COCO-Tasks에서 최첨단 결과를 달성합니다.
Task-oriented object detection aims to find objects suitable for accomplishing specific tasks. As a challenging task, it requires simultaneous visual data processing and reasoning under ambiguous semantics. Recent solutions are mainly all-in-one models. However, the object detection backbones are pre-trained without text supervision. Thus, to incorporate task requirements, their intricate models undergo extensive learning on a highly imbalanced and scarce dataset, resulting in capped performance, laborious training, and poor generalizability. In contrast, we propose TaskCLIP, a more natural two-stage design composed of general object detection and task-guided object selection. Particularly for the latter, we resort to the recently successful large Vision-Language Models (VLMs) as our backbone, which provides rich semantic knowledge and a uniform embedding space for images and texts. Nevertheless, the naive application of VLMs leads to sub-optimal quality, due to the misalignment between embeddings of object images and their visual attributes, which are mainly adjective phrases. To this end, we design a transformer-based aligner after the pre-trained VLMs to re-calibrate both embeddings. Finally, we employ a trainable score function to post-process the VLM matching results for object selection. Experimental results demonstrate that our TaskCLIP outperforms the state-of-the-art DETR-based model TOIST by 3.5% and only requires a single NVIDIA RTX 4090 for both training and inference.
연구 동기 및 목표
- 데이터 부족 및 불균형 하에서 시각적 처리와 작업 주도적 추론이 모두 필요한 작업 지향 객체 탐 detection의 필요성을 동기화한다.
- 사전에 학습된 비전-언어 모델을 활용한 견고하고 일반화 가능한 탐지를 위한 두 단계 프레임워크를 제안한다.
- 시각적 속성(형용사)과 이미지 임베딩을 미세 정렬 모듈을 통해 연결한다.
- VLM을 고정하고 임베딩을 트랜스포머 정렬기로 재보정함으로써 학습 비용을 줄이고 일반화를 개선한다.]
제안 방법
- 각 작업에 대해 대형 언어 모델을 사용하여 작업 관련 시각 속성을 추출한다.
- 일반 객체 탐지기로 경계 상자를 생성하고 VLM 처리를 위해 이미지 패치를 자른다.
- 트랜스포머 기반의 정렬기를 적용하여 시각 임베딩과 텍스트 임베딩을 재보정하고 형용사와 시각 속성을 맞춘다.
- 재보정된 텍스트와 시각 임베딩을 곱해 바운딩 박스-속성 쌍의 친화도를 계산하는 친화도 행렬을 생성한다.
- 셀프 어텐션이 있는 학습 가능한 점수 함수를 사용하여 각 바운딩 박스의 작업 적합도 점수를 산출한다.
- 동일 COCO 클래스 내에서 높은 신뢰 예측을 전파하는 선별-그룹화 메커니즘을 적용하여 거짓 음성을 완화한다.]
실험 결과
연구 질문
- RQ1 frozen 대형 비전-언어 모델을 활용한 두 단계 프레임워크가 COCO-Tasks에서 DETR 기반 작업 지향 탐지기를 능가할 수 있는가?
- RQ2형용사(시각 속성)에 대한 임베딩을 객체 시각 특징과 어떻게 정렬하여 작업 지향 선택을 개선할 수 있는가?
- RQ3선별-그룹화 메커니즘이 COCO-Tasks에서 클래스 불균형을 완화하고 거짓 음성을 줄일 수 있는가?
주요 결과
| 알고리즘 | 작업1 | 작업2 | 작업3 | 작업4 | 작업5 | 작업6 | 작업7 | 작업8 | 작업9 | 작업10 | 작업11 | 작업12 | 작업13 | 작업14 | 평균 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| GGNN | 36.6 | 29.8 | 40.5 | 37.6 | 41.0 | 17.2 | 43.6 | 17.9 | 21.0 | 40.6 | 22.3 | 28.4 | 39.1 | 40.7 | 32.6 (+0.0) |
| TOIST | 44.0 | 39.5 | 46.7 | 43.1 | 53.6 | 23.5 | 52.8 | 21.3 | 23.0 | 46.3 | 33.1 | 41.7 | 48.1 | 52.9 | 41.3 (+8.5) |
| TOIST† | 45.8 | 40.0 | 49.4 | 49.6 | 53.4 | 26.9 | 58.3 | 22.6 | 32.5 | 50.0 | 35.5 | 43.7 | 52.8 | 56.2 | 44.1 (+11.3) |
| CoTDet‡ | 44.7 | 40.1 | 47.6 | 44.2 | 54.1 | 25.2 | 54.1 | 22.9 | 32.9 | 49.1 | 36.1 | 42.9 | 51.8 | 55.3 | 42.9 (+10.3) |
| TaskCLIP | 44.9 | 44.1 | 45.4 | 56.5 | 50.2 | 32.3 | 66.0 | 19.7 | 38.0 | 52.1 | 37.8 | 41.6 | 44.9 | 64.0 | 45.5 (+12.9) |
| TaskCLIP* | 45.1 | 45.1 | 48.6 | 59.1 | 52.9 | 33.0 | 67.3 | 22.1 | 39.0 | 55.7 | 39.9 | 43.5 | 46.5 | 66.3 | 47.4 (+14.8) |
- TaskCLIP은 COCO-Tasks에서 mAP@0.5 기준으로 DETR 기반 TOIST를 3.5% 포인트 상회한다.
- 단일 RTX 4090으로 TaskCLIP은 heavier DETR 기반 모델보다 더 효율적으로 학습 및 추론을 수행한다.
- 트랜스포머 정렬기를 도입하면 객체 시각 정보와 형용사 속성 간의 정렬이 크게 향상되어 기준치 대비 약 20%의 mAP@0.5 증가를 얻는다.
- 선별-그룹화 메커니즘은 불균형한 데이터에서 거짓 음수를 줄이고 mean AP@0.5를 향상시킨다.
- TaskCLIP은 COCO-Tasks에서 평균 AP@0.5 45.5%(TaskCLIP) 및 47.4%(TaskCLIP* 최적화) 달성(표 3 참조)한다.
- 이 접근법은 VLM과 객체 탐지기의 엔드투엔드 파인튜닝을 피함으로써 엔드투엔드 학습 효율을 유지한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.