Skip to main content
QUICK REVIEW

[논문 리뷰] TaskCLIP: Extend Large Vision-Language Model for Task Oriented Object Detection

Hanning Chen, Wenjun Huang|arXiv (Cornell University)|2024. 03. 12.
Advanced Image and Video Retrieval Techniques인용 수 5
한 줄 요약

TaskCLIP은 비전-언어 기반의 두 단계 프레임워크를 도입하여 작업 지향 객체 탐지를 수행하고, 비전 및 형용사 기반 텍스트 임베딩을 트랜스포머 정렬기와 선별-그룹화 메커니즘과 정렬하여, 단일 RTX 4090으로 COCO-Tasks에서 최첨단 결과를 달성합니다.

ABSTRACT

Task-oriented object detection aims to find objects suitable for accomplishing specific tasks. As a challenging task, it requires simultaneous visual data processing and reasoning under ambiguous semantics. Recent solutions are mainly all-in-one models. However, the object detection backbones are pre-trained without text supervision. Thus, to incorporate task requirements, their intricate models undergo extensive learning on a highly imbalanced and scarce dataset, resulting in capped performance, laborious training, and poor generalizability. In contrast, we propose TaskCLIP, a more natural two-stage design composed of general object detection and task-guided object selection. Particularly for the latter, we resort to the recently successful large Vision-Language Models (VLMs) as our backbone, which provides rich semantic knowledge and a uniform embedding space for images and texts. Nevertheless, the naive application of VLMs leads to sub-optimal quality, due to the misalignment between embeddings of object images and their visual attributes, which are mainly adjective phrases. To this end, we design a transformer-based aligner after the pre-trained VLMs to re-calibrate both embeddings. Finally, we employ a trainable score function to post-process the VLM matching results for object selection. Experimental results demonstrate that our TaskCLIP outperforms the state-of-the-art DETR-based model TOIST by 3.5% and only requires a single NVIDIA RTX 4090 for both training and inference.

연구 동기 및 목표

  • 데이터 부족 및 불균형 하에서 시각적 처리와 작업 주도적 추론이 모두 필요한 작업 지향 객체 탐 detection의 필요성을 동기화한다.
  • 사전에 학습된 비전-언어 모델을 활용한 견고하고 일반화 가능한 탐지를 위한 두 단계 프레임워크를 제안한다.
  • 시각적 속성(형용사)과 이미지 임베딩을 미세 정렬 모듈을 통해 연결한다.
  • VLM을 고정하고 임베딩을 트랜스포머 정렬기로 재보정함으로써 학습 비용을 줄이고 일반화를 개선한다.]

제안 방법

  • 각 작업에 대해 대형 언어 모델을 사용하여 작업 관련 시각 속성을 추출한다.
  • 일반 객체 탐지기로 경계 상자를 생성하고 VLM 처리를 위해 이미지 패치를 자른다.
  • 트랜스포머 기반의 정렬기를 적용하여 시각 임베딩과 텍스트 임베딩을 재보정하고 형용사와 시각 속성을 맞춘다.
  • 재보정된 텍스트와 시각 임베딩을 곱해 바운딩 박스-속성 쌍의 친화도를 계산하는 친화도 행렬을 생성한다.
  • 셀프 어텐션이 있는 학습 가능한 점수 함수를 사용하여 각 바운딩 박스의 작업 적합도 점수를 산출한다.
  • 동일 COCO 클래스 내에서 높은 신뢰 예측을 전파하는 선별-그룹화 메커니즘을 적용하여 거짓 음성을 완화한다.]

실험 결과

연구 질문

  • RQ1 frozen 대형 비전-언어 모델을 활용한 두 단계 프레임워크가 COCO-Tasks에서 DETR 기반 작업 지향 탐지기를 능가할 수 있는가?
  • RQ2형용사(시각 속성)에 대한 임베딩을 객체 시각 특징과 어떻게 정렬하여 작업 지향 선택을 개선할 수 있는가?
  • RQ3선별-그룹화 메커니즘이 COCO-Tasks에서 클래스 불균형을 완화하고 거짓 음성을 줄일 수 있는가?

주요 결과

알고리즘작업1작업2작업3작업4작업5작업6작업7작업8작업9작업10작업11작업12작업13작업14평균
GGNN36.629.840.537.641.017.243.617.921.040.622.328.439.140.732.6 (+0.0)
TOIST44.039.546.743.153.623.552.821.323.046.333.141.748.152.941.3 (+8.5)
TOIST†45.840.049.449.653.426.958.322.632.550.035.543.752.856.244.1 (+11.3)
CoTDet‡44.740.147.644.254.125.254.122.932.949.136.142.951.855.342.9 (+10.3)
TaskCLIP44.944.145.456.550.232.366.019.738.052.137.841.644.964.045.5 (+12.9)
TaskCLIP*45.145.148.659.152.933.067.322.139.055.739.943.546.566.347.4 (+14.8)
  • TaskCLIP은 COCO-Tasks에서 mAP@0.5 기준으로 DETR 기반 TOIST를 3.5% 포인트 상회한다.
  • 단일 RTX 4090으로 TaskCLIP은 heavier DETR 기반 모델보다 더 효율적으로 학습 및 추론을 수행한다.
  • 트랜스포머 정렬기를 도입하면 객체 시각 정보와 형용사 속성 간의 정렬이 크게 향상되어 기준치 대비 약 20%의 mAP@0.5 증가를 얻는다.
  • 선별-그룹화 메커니즘은 불균형한 데이터에서 거짓 음수를 줄이고 mean AP@0.5를 향상시킨다.
  • TaskCLIP은 COCO-Tasks에서 평균 AP@0.5 45.5%(TaskCLIP) 및 47.4%(TaskCLIP* 최적화) 달성(표 3 참조)한다.
  • 이 접근법은 VLM과 객체 탐지기의 엔드투엔드 파인튜닝을 피함으로써 엔드투엔드 학습 효율을 유지한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.