Skip to main content
QUICK REVIEW

[논문 리뷰] FlowComposer: Composable Flows for Compositional Zero-Shot Learning

Zhenqi He, Lin Z. Li|arXiv (Cornell University)|2026. 03. 17.
Domain Adaptation and Few-Shot Learning인용 수 0
한 줄 요약

FlowComposer는 두 가지 원시 흐름 모델과 학습 가능한 Composer를 사용하여 시각 특징을 속성 및 객체 텍스트 임베딩으로 명시적으로 전달하며, CZSL에서 임베딩 공간의 명시적 구성과 기본 방법에 연결 시 개선 효과를 제공합니다.

ABSTRACT

Compositional zero-shot learning (CZSL) aims to recognize unseen attribute-object compositions by recombining primitives learned from seen pairs. Recent CZSL methods built on vision-language models (VLMs) typically adopt parameter-efficient fine-tuning (PEFT). They apply visual disentanglers for decomposition and manipulate token-level prompts or prefixes to encode compositions. However, such PEFT-based designs suffer from two fundamental limitations: (1) Implicit Composition Construction, where composition is realized only via token concatenation or branch-wise prompt tuning rather than an explicit operation in the embedding space; (2) Remained Feature Entanglement, where imperfect disentanglement leaves attribute, object, and composition features mutually contaminated. Together, these issues limit the generalization ability of current CZSL models. In this paper, we are the first to systematically study flow matching for CZSL and introduce FlowComposer, a model-agnostic framework that learns two primitive flows to transport visual features toward attribute and object text embeddings, and a learnable Composer that explicitly fuses their velocity fields into a composition flow. To exploit the inevitable residual entanglement, we further devise a leakage-guided augmentation scheme that reuses leaked features as auxiliary signals. We thoroughly evaluate FlowComposer on three public CZSL benchmarks by integrating it as a plug-and-play component into various baselines, consistently achieving significant improvements.

연구 동기 및 목표

  • PEFT 기반 CZSL 방법의 명시적 구성 및 특징 분해의 한계에 대한 동기 부여 및 해결.
  • 텍스트 임베딩에 속성 및 객체 흐름을 학습하는 모델-독립적 프레임워크를 제안합니다.
  • 학습 가능한 Composer를 도입하여 원시 속도장을 구성 흐름으로 명시적으로 융합합니다.
  • 잔류 크로스 브랜치 정보를 감독 신호로 활용하도록 누출 유도 보강을 활용합니다.
  • FlowComposer를 기존 CZSL 기본선에 Plug-in했을 때 성능 개선을 입증합니다.

제안 방법

  • 두 가지 원시 흐름 모델이 속성 및 객체 시각 임베딩을 텍스트 임베딩으로 이동시키도록 시간 조건부 속도를 학습합니다.
  • 학습 가능한 Composer가 원시 속도들을 결합하여 구성 흐름의 계수를 예측합니다.
  • 누출된 특징을 교차 브랜치 감독 신호로 재사용하여 속도 감독을 풍부하게 하는 누출 유도 보강을 적용합니다.
  • 엔드투엔드 학습은 엔드포인트 정렬을 위한 흐름 매칭 손실과 엔드포인트 식별을 위한 교차 엔트로피 항을 사용합니다.
  • 추론은 이미지를 해당 텍스트 공간으로 매핑하는 한 단계의 전송과 구성에 대한 계수 학습을 위한 최소자 제곱 기반 방법을 사용합니다.
Figure 1 : (a) Humans recognize new concepts by recombining familiar primitives. (b) Prior CZSL methods compose only at the token level, which may not yield valid unseen compositions in the embedding space. (c) We perform explicit composition in the embedding space via learned attribute and object f
Figure 1 : (a) Humans recognize new concepts by recombining familiar primitives. (b) Prior CZSL methods compose only at the token level, which may not yield valid unseen compositions in the embedding space. (c) We perform explicit composition in the embedding space via learned attribute and object f

실험 결과

연구 질문

  • RQ1임베딩 공간에서의 명시적 속도 기반 구성이 보지 못한 속성-객체 쌍에 대한 CZSL 일반화를 개선할 수 있는가?
  • RQ2두 원시 흐름과 Composer 아키텍처가 단일 흐름 또는 다중 흐름 변형보다 폐쇄형 세계(CZSL)와 개방형 세계(CZSL) 설정에서 더 나은 성능을 보이는가?
  • RQ3누출 유도 보강이 분리성 강건성과 전반적인 CZSL 성능을 개선하는가?
  • RQ4FlowComposer가 기존 CZSL 기본선(CSP, Troika 등)에 글로벌 모델 변경 없이 얼마나 잘 plug-in 되는가?
  • RQ5flow 매칭이 CZSL의 구성성을 모델링하는 적합한 패러다임인가, 전통적인 토큰 수준 프롬프트 방법과 비교할 때?

주요 결과

방법SeenUnseenHMAUCSeenUnseenHMAUCSeenUnseenHMAUC
Baseline (Troika)49.352.539.222.166.373.455.441.8
+FlowComposer (CSP)48.350.437.620.766.668.251.237.829.030.922.97.7
+FlowComposer (Troika)50.453.240.223.571.174.958.646.844.834.015.9
  • FlowComposer는 MIT-States, UT-Zappos 및 C-GQA에서 CSP 및 Troika에 Plug-in했을 때 일관되게 HM과 AUC를 개선합니다.
  • 폐쇄형 세계에서 Troika와 함께 FlowComposer는 세 가지 데이터 세트 모두에서 최첨단 AUC를 달성하며 일부 LLM 보강 방법을 능가합니다.
  • 개방형 세계에서 FlowComposer는 기본 대비 주목할 만한 HM 향상(+MIT-States 예: +1.3%, UT-Zappos 예: +4.4%) 및 AUC 이득을 제공합니다.
  • 분해 실험에서 모든 구성요소(Flows, Composer, LG-Aug)가 기여하며, 전체 FlowComposer가 가장 큰 개선을 제공합니다.
  • 예측기 버전과의 비교에서 Composer의 명시적 구성 규칙이 구성 속도의 직접 회귀보다 이점을 제공합니다.
  • 매개변수 매칭 회귀기 기반 기준선은 이점이 흐름 매칭 설계에서 기인하며 매개변수 수 증가 때문이 아님을 시사합니다.
Figure 2 : Training dynamics and performance comparison with baseline - Troika [ 15 ] . Our method yields a more balanced seen/unseen accuracy trajectory and consistently improves HM and AUC over the baseline on all three datasets.
Figure 2 : Training dynamics and performance comparison with baseline - Troika [ 15 ] . Our method yields a more balanced seen/unseen accuracy trajectory and consistently improves HM and AUC over the baseline on all three datasets.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.