QUICK REVIEW

[論文レビュー] Zero-shot Visual Relation Detection via Composite Visual Cues from Large Language Models

Lin Li, Jun Xiao|arXiv (Cornell University)|May 21, 2023

Multimodal Machine Learning Applications被引用数 9

ひとこと要約

この論文は、対象・客体・空間成分の記述的視覚手掛かりをLLM生成で用い、CLIPを補強するゼロショットVRD手法RECODEを提案し、同様の関係間の識別を向上させるチェーン・オブ・ソウトのプロンプトウェイト付けを用いる。

ABSTRACT

Pretrained vision-language models, such as CLIP, have demonstrated strong generalization capabilities, making them promising tools in the realm of zero-shot visual recognition. Visual relation detection (VRD) is a typical task that identifies relationship (or interaction) types between object pairs within an image. However, naively utilizing CLIP with prevalent class-based prompts for zero-shot VRD has several weaknesses, e.g., it struggles to distinguish between different fine-grained relation types and it neglects essential spatial information of two objects. To this end, we propose a novel method for zero-shot VRD: RECODE, which solves RElation detection via COmposite DEscription prompts. Specifically, RECODE first decomposes each predicate category into subject, object, and spatial components. Then, it leverages large language models (LLMs) to generate description-based prompts (or visual cues) for each component. Different visual cues enhance the discriminability of similar relation categories from different perspectives, which significantly boosts performance in VRD. To dynamically fuse different cues, we further introduce a chain-of-thought method that prompts LLMs to generate reasonable weights for different visual cues. Extensive experiments on four VRD benchmarks have demonstrated the effectiveness and interpretability of RECODE.

研究の動機と目的

ゼロショットVRDにおけるクラスベースのプロンプトの弱点を浮き彫りにし、手掛かりベースのプロンプトを動機付ける。
関係カテゴリを主語・客体・空間の手掛かりに分解するRECODEを提案する。
チェーン・オブ・ソウトによる prompting スキームが手掛かりを組み合わせる適切な重みを生み出すことを示す。
4つのベンチマーク（VG、GQA、HICO-DET、V-COCO）でゼロショットVRDの性能向上を実証する。

提案手法

各関係を主語・客体・空間成分に分解する。
LLMを用いて各成分の記述ベースの視覚手掛かりを生成する。
計算の実行可能性を保つため、空間関係は有限のシミュレート空間画像の集合で表現する。
視覚埋め込み（CLIP）と意味的手掛かり埋め込み（LLM生成プロンプト）の類似度を計算する。
主語・客体・空間成分の手掛かりを学習された重みで融合する；重みはチェーン・オブ・ソウト prompting戦略により生成される。
任意で不合理な予測を除外するフィルタリングモジュールを適用する（Guidance/Filter）。

実験結果

リサーチクエスチョン

RQ1クラスベースのプロンプトを越えた複合的で記述ベースの手掛かりに移行することで、ゼロショットVRDを改善できるか。
RQ2主語・客体・空間成分のLLM生成記述手掛かりは細分化された関係の識別性を改善するか。
RQ3チェーン・オブ・ソウト promptingはVRDで複数の視覚手掛かりを組み合わせる際に妥当な重みを生み出せるか。
RQ4RECODEは標準的なVRDベンチマークでベースラインプロンプトと比べてどのような性能を示すか。

主な発見

Data	Method	Predicate Classification	R@20	R@50	R@100	mR@20	mR@50	mR@100
VG	CLS	7.2	-	10.9	-	13.2	-	9.4
VG	CLSDE	7.0	-0.2	10.6	-0.3	12.9	-0.3	8.5	-0.9	13.6	-0.4	16.9	-0.7
VG	RECODE †	7.3	0.1	11.2	0.3	15.4	2.2	8.2	-1.2	13.5	-0.5	18.3	0.7
VG	RECODE	9.7	2.5	14.9	4.0	19.3	6.1	10.2	0.8	16.4	2.4	22.7	5.1
VG	RECODE ⋆	10.6	3.4	18.3	7.4	25.0	11.8	10.7	1.3	18.7	4.7	27.8	10.2
GQA	CLS	5.6	-	7.7	-	9.9	-	6.3	-	9.5	-	12.2	-
GQA	CLSDE	5.4	-0.2	7.2	-0.5	9.3	-0.6	6.0	-0.3	8.8	-0.7	11.5	-0.7
GQA	RECODE †	5.2	-0.4	7.8	0.1	10.2	0.3	5.8	-0.5	8.9	-0.6	11.3	-0.9
GQA	RECODE	6.3	0.7	9.4	1.7	11.8	1.9	7.8	1.5	11.9	2.4	15.1	2.9
GQA	RECODE ⋆	7.0	1.4	11.1	3.4	15.4	5.5	9.4	3.1	14.8	5.3	20.4	8.2

RECODEはVGおよびGQAでクラスベースのCLIPベースラインを大幅に改善（R@KおよびmR@Kの設定ごとの向上例）。
高レベルな物体カテゴリ情報（動物/人間/製品）を含む手掛かりは手掛かりの質と関係識別を改善。
空間手掛かりとLLM由来の重みを組み込むと、手掛かりのみの設定より追加の向上を得られる。
最良の結果はすべてのRECODE⋆（フィルタを含む）で得られ、データセットと指標を跨いで頑健な利得を示す。
HOIデータセット（HICO-DETおよびV-COCO）では、RECODEはベースラインより控えめながら一貫した改善を達成。
アブレーションやアーキテクチャ研究により、手法は異なるCLIPバックボーンに対して頑健で、各コンポーネント（手掛かり、空間、重み、フィルター）が性能に寄与することを示す。
定性的分析（アテンションマップ）は、記述ベースのプロンプトがCLIPをより関連性の高い画像領域へ導くことを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。