QUICK REVIEW

[논문 리뷰] TaskCLIP: Extend Large Vision-Language Model for Task Oriented Object Detection

Hanning Chen, Wenjun Huang|arXiv (Cornell University)|2024. 03. 12.

Advanced Image and Video Retrieval Techniques인용 수 5

한 줄 요약

TaskCLIP은 비전-언어 기반의 두 단계 프레임워크를 도입하여 작업 지향 객체 탐지를 수행하고, 비전 및 형용사 기반 텍스트 임베딩을 트랜스포머 정렬기와 선별-그룹화 메커니즘과 정렬하여, 단일 RTX 4090으로 COCO-Tasks에서 최첨단 결과를 달성합니다.

ABSTRACT

Task-oriented object detection aims to find objects suitable for accomplishing specific tasks. As a challenging task, it requires simultaneous visual data processing and reasoning under ambiguous semantics. Recent solutions are mainly all-in-one models. However, the object detection backbones are pre-trained without text supervision. Thus, to incorporate task requirements, their intricate models undergo extensive learning on a highly imbalanced and scarce dataset, resulting in capped performance, laborious training, and poor generalizability. In contrast, we propose TaskCLIP, a more natural two-stage design composed of general object detection and task-guided object selection. Particularly for the latter, we resort to the recently successful large Vision-Language Models (VLMs) as our backbone, which provides rich semantic knowledge and a uniform embedding space for images and texts. Nevertheless, the naive application of VLMs leads to sub-optimal quality, due to the misalignment between embeddings of object images and their visual attributes, which are mainly adjective phrases. To this end, we design a transformer-based aligner after the pre-trained VLMs to re-calibrate both embeddings. Finally, we employ a trainable score function to post-process the VLM matching results for object selection. Experimental results demonstrate that our TaskCLIP outperforms the state-of-the-art DETR-based model TOIST by 3.5% and only requires a single NVIDIA RTX 4090 for both training and inference.

연구 동기 및 목표

데이터 부족 및 불균형 하에서 시각적 처리와 작업 주도적 추론이 모두 필요한 작업 지향 객체 탐 detection의 필요성을 동기화한다.
사전에 학습된 비전-언어 모델을 활용한 견고하고 일반화 가능한 탐지를 위한 두 단계 프레임워크를 제안한다.
시각적 속성(형용사)과 이미지 임베딩을 미세 정렬 모듈을 통해 연결한다.
VLM을 고정하고 임베딩을 트랜스포머 정렬기로 재보정함으로써 학습 비용을 줄이고 일반화를 개선한다.]

제안 방법

각 작업에 대해 대형 언어 모델을 사용하여 작업 관련 시각 속성을 추출한다.
일반 객체 탐지기로 경계 상자를 생성하고 VLM 처리를 위해 이미지 패치를 자른다.
트랜스포머 기반의 정렬기를 적용하여 시각 임베딩과 텍스트 임베딩을 재보정하고 형용사와 시각 속성을 맞춘다.
재보정된 텍스트와 시각 임베딩을 곱해 바운딩 박스-속성 쌍의 친화도를 계산하는 친화도 행렬을 생성한다.
셀프 어텐션이 있는 학습 가능한 점수 함수를 사용하여 각 바운딩 박스의 작업 적합도 점수를 산출한다.
동일 COCO 클래스 내에서 높은 신뢰 예측을 전파하는 선별-그룹화 메커니즘을 적용하여 거짓 음성을 완화한다.]

실험 결과

연구 질문

RQ1 frozen 대형 비전-언어 모델을 활용한 두 단계 프레임워크가 COCO-Tasks에서 DETR 기반 작업 지향 탐지기를 능가할 수 있는가?
RQ2형용사(시각 속성)에 대한 임베딩을 객체 시각 특징과 어떻게 정렬하여 작업 지향 선택을 개선할 수 있는가?
RQ3선별-그룹화 메커니즘이 COCO-Tasks에서 클래스 불균형을 완화하고 거짓 음성을 줄일 수 있는가?

주요 결과

알고리즘	작업1	작업2	작업3	작업4	작업5	작업6	작업7	작업8	작업9	작업10	작업11	작업12	작업13	작업14	평균
GGNN	36.6	29.8	40.5	37.6	41.0	17.2	43.6	17.9	21.0	40.6	22.3	28.4	39.1	40.7	32.6 (+0.0)
TOIST	44.0	39.5	46.7	43.1	53.6	23.5	52.8	21.3	23.0	46.3	33.1	41.7	48.1	52.9	41.3 (+8.5)
TOIST†	45.8	40.0	49.4	49.6	53.4	26.9	58.3	22.6	32.5	50.0	35.5	43.7	52.8	56.2	44.1 (+11.3)
CoTDet‡	44.7	40.1	47.6	44.2	54.1	25.2	54.1	22.9	32.9	49.1	36.1	42.9	51.8	55.3	42.9 (+10.3)
TaskCLIP	44.9	44.1	45.4	56.5	50.2	32.3	66.0	19.7	38.0	52.1	37.8	41.6	44.9	64.0	45.5 (+12.9)
TaskCLIP*	45.1	45.1	48.6	59.1	52.9	33.0	67.3	22.1	39.0	55.7	39.9	43.5	46.5	66.3	47.4 (+14.8)

TaskCLIP은 COCO-Tasks에서 mAP@0.5 기준으로 DETR 기반 TOIST를 3.5% 포인트 상회한다.
단일 RTX 4090으로 TaskCLIP은 heavier DETR 기반 모델보다 더 효율적으로 학습 및 추론을 수행한다.
트랜스포머 정렬기를 도입하면 객체 시각 정보와 형용사 속성 간의 정렬이 크게 향상되어 기준치 대비 약 20%의 mAP@0.5 증가를 얻는다.
선별-그룹화 메커니즘은 불균형한 데이터에서 거짓 음수를 줄이고 mean AP@0.5를 향상시킨다.
TaskCLIP은 COCO-Tasks에서 평균 AP@0.5 45.5%(TaskCLIP) 및 47.4%(TaskCLIP* 최적화) 달성(표 3 참조)한다.
이 접근법은 VLM과 객체 탐지기의 엔드투엔드 파인튜닝을 피함으로써 엔드투엔드 학습 효율을 유지한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.