QUICK REVIEW

[논문 리뷰] Zero-shot Visual Relation Detection via Composite Visual Cues from Large Language Models

Lin Li, Jun Xiao|arXiv (Cornell University)|2023. 05. 21.

Multimodal Machine Learning Applications인용 수 9

한 줄 요약

본 논문은 주체(subject), 객체(object), 공간(spatial) 구성 요소에 대해 LLM이 생성한 서술적 시각 신호를 이용하여 CLIP를 보강하고, 유사한 관계 간 구별을 향상시키기 위해 사고 과정(chain-of-thought) 기반 신호 가중치를 사용하는 제로샷 VRD 방법인 RECODE를 도입합니다.

ABSTRACT

Pretrained vision-language models, such as CLIP, have demonstrated strong generalization capabilities, making them promising tools in the realm of zero-shot visual recognition. Visual relation detection (VRD) is a typical task that identifies relationship (or interaction) types between object pairs within an image. However, naively utilizing CLIP with prevalent class-based prompts for zero-shot VRD has several weaknesses, e.g., it struggles to distinguish between different fine-grained relation types and it neglects essential spatial information of two objects. To this end, we propose a novel method for zero-shot VRD: RECODE, which solves RElation detection via COmposite DEscription prompts. Specifically, RECODE first decomposes each predicate category into subject, object, and spatial components. Then, it leverages large language models (LLMs) to generate description-based prompts (or visual cues) for each component. Different visual cues enhance the discriminability of similar relation categories from different perspectives, which significantly boosts performance in VRD. To dynamically fuse different cues, we further introduce a chain-of-thought method that prompts LLMs to generate reasonable weights for different visual cues. Extensive experiments on four VRD benchmarks have demonstrated the effectiveness and interpretability of RECODE.

연구 동기 및 목표

제로샷 VRD를 위한 클래스 기반 프롬프트의 약점을 강조하고 신호 기반 프롬프트를 촉진합니다.
LLMs가 생성한 주체, 객체, 공간 신호로 관계 카테고리를 분해하는 RECODE를 제안합니다.
사고 과정 프롬프팅 체계가 신호를 결합하기 위한 합리적 가중치를 산출한다는 것을 보여줍니다.
네 가지 벤치마크(VG, GQA, HICO-DET, V-COCO)에서 제로샷 VRD 성능이 향상됨을 입증합니다.

제안 방법

각 관계를 주체(subject), 객체(object), 공간(spatial) 구성 요소로 분해합니다.
각 구성 요소에 대해 LLM을 사용하여 설명 기반 시각 신호를 생성합니다.
계산을 합리적으로 유지하기 위해 공간 관계를 한정된 가상의 공간 이미지 집합으로 표현합니다.
시각 임베딩(CLIP)과 시맨틱 신호 임베딩(LLM-generated prompts) 간의 유사도를 계산합니다.
주체, 객체, 공간 구성 요소에 대해 학습된 가중치를 사용하여 신호를 융합합니다; 가중치는 사고 과정 프롬프트 전략으로 생성됩니다.
필요에 따라 비합리적 예측을 제거하는 필터링 모듈(가이드/필터)을 적용할 수 있습니다.

실험 결과

연구 질문

RQ1제로샷 VRD를 클래스 기반 프롬프트에서 벗어나 복합적이고 서술 기반 신호로 확장하면 향상될 수 있는가?
RQ2주체, 객체, 공간 구성 요소에 대해 LLM이 생성한 서술적 신호가 미세한 관계 간 구별력을 향상시키는가?
RQ3사고 과정 프롬oting 체계가 VRD에서 여러 시각 신호를 결합하기 위한 합리적 가중치를 산출할 수 있는가?
RQ4RECODE가 표준 VRD 벤치마크에서 기준 프롬프트와 비교해 어떤 성능을 보이는가?

주요 결과

데이터	방법	술어 분류	R@20	R@50	R@100	mR@20	mR@50	mR@100
VG	CLS	7.2	-	10.9	-	13.2	-	9.4
VG	CLSDE	7.0	-0.2	10.6	-0.3	12.9	-0.3	8.5	-0.9	13.6	-0.4	16.9	-0.7
VG	RECODE †	7.3	0.1	11.2	0.3	15.4	2.2	8.2	-1.2	13.5	-0.5	18.3	0.7
VG	RECODE	9.7	2.5	14.9	4.0	19.3	6.1	10.2	0.8	16.4	2.4	22.7	5.1
VG	RECODE ⋆	10.6	3.4	18.3	7.4	25.0	11.8	10.7	1.3	18.7	4.7	27.8	10.2
GQA	CLS	5.6	-	7.7	-	9.9	-	6.3	-	9.5	-	12.2	-
GQA	CLSDE	5.4	-0.2	7.2	-0.5	9.3	-0.6	6.0	-0.3	8.8	-0.7	11.5	-0.7
GQA	RECODE †	5.2	-0.4	7.8	0.1	10.2	0.3	5.8	-0.5	8.9	-0.6	11.3	-0.9
GQA	RECODE	6.3	0.7	9.4	1.7	11.8	1.9	7.8	1.5	11.9	2.4	15.1	2.9
GQA	RECODE ⋆	7.0	1.4	11.1	3.4	15.4	5.5	9.4	3.1	14.8	5.3	20.4	8.2

RECODE는 VG 및 GQA에서 클래스 기반 CLIP 비교대비 상당한 개선을 보여주며, 설정에 따라 R@K 및 mR@K가 증가합니다.
고수준 객체 범주 정보(동물/사람/제품)로 안내된 신호는 신호 품질과 관계 구별력을 향상시킵니다.
공간 신호와 LLM 유도 가중치를 도입하면 신호-전용 설정보다 추가 이점을 얻습니다.
최적 결과는 필터링을 포함한 전체 RECODE⋆에서 달성되며, 데이터셋과 지표 전반에서 견고한 이득이 나타납니다.
HOI 데이터셋(HICO-DET 및 V-COCO)에서도 RECODE가 베이스라인 대비 소폭이지만 일관된 개선을 보입니다.
절단 및 아키텍처 연구는 이 접근 방식이 서로 다른 CLIP 백본에 대해 견고함을 보이며, 각 구성 요소(Cue, Spatial, Weight, Filter)가 성능에 기여함을 시사합니다.
정성적 분석(주목도 맵)은 서술 기반 프롬프트가 CLIP를 더 관련 이미지 영역으로 이끈다고 보여줍니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.