Skip to main content
QUICK REVIEW

[論文レビュー] FlowComposer: Composable Flows for Compositional Zero-Shot Learning

Zhenqi He, Lin Z. Li|arXiv (Cornell University)|Mar 17, 2026
Domain Adaptation and Few-Shot Learning被引用数 0
ひとこと要約

FlowComposerは2つのprimitive flowモデルと学習可能なComposerを用いて、 embedding空間でのExplicitな構成を可能にし、CZSLにおける視覚特徴を属性と物体のテキスト埋め込みへと明示的に移送する。ベースライン手法に組み込んだ場合にも改善をもたらす。

ABSTRACT

Compositional zero-shot learning (CZSL) aims to recognize unseen attribute-object compositions by recombining primitives learned from seen pairs. Recent CZSL methods built on vision-language models (VLMs) typically adopt parameter-efficient fine-tuning (PEFT). They apply visual disentanglers for decomposition and manipulate token-level prompts or prefixes to encode compositions. However, such PEFT-based designs suffer from two fundamental limitations: (1) Implicit Composition Construction, where composition is realized only via token concatenation or branch-wise prompt tuning rather than an explicit operation in the embedding space; (2) Remained Feature Entanglement, where imperfect disentanglement leaves attribute, object, and composition features mutually contaminated. Together, these issues limit the generalization ability of current CZSL models. In this paper, we are the first to systematically study flow matching for CZSL and introduce FlowComposer, a model-agnostic framework that learns two primitive flows to transport visual features toward attribute and object text embeddings, and a learnable Composer that explicitly fuses their velocity fields into a composition flow. To exploit the inevitable residual entanglement, we further devise a leakage-guided augmentation scheme that reuses leaked features as auxiliary signals. We thoroughly evaluate FlowComposer on three public CZSL benchmarks by integrating it as a plug-and-play component into various baselines, consistently achieving significant improvements.

研究の動機と目的

  • PEFTベースのCZSL手法が明示的な構成と特徴の解 disentanglementにおいて抱える制約を動機づけて克服する。
  • テキスト埋め込みへ属性と物体の流れを学習するモデル非依存のフレームワークを提案する。
  • 学習可能なComposerを導入して、primitive velocityを組み合わせた構成フローを明示的に融合する。
  • 漏洩に基づくaugmentationを用いて残差のクロスブランチ情報を監督信号として活用する。
  • FlowComposerを既存のCZSLベースラインに組み込んだ際の性能向上を実証する。

提案手法

  • 2つのprimitive flowモデルが時刻条件付きの速度を学習し、属性および物体の視覚埋め込みをそれぞれのテキスト埋め込みへ輸送する。
  • 学習可能なComposerがprimitive velocityを組み合わせる係数を予測し、構成フローを作成する。
  • 漏洩に基づくaugmentationが漏洩した特徴をクロスブランチの監督信号として再利用し、速度監督を豊かにする。
  • エンドツーエンド訓練はエンドポイントの整合を図るflow-matching損失と、エンドポイント識別のためのクロスエントロピー項を用いる。
  • 推論は画像特徴を対応するテキスト空間へ1ステップの移送で写像し、構成の係数学習には最小二乗法に基づく手法を併用する。
Figure 1 : (a) Humans recognize new concepts by recombining familiar primitives. (b) Prior CZSL methods compose only at the token level, which may not yield valid unseen compositions in the embedding space. (c) We perform explicit composition in the embedding space via learned attribute and object f
Figure 1 : (a) Humans recognize new concepts by recombining familiar primitives. (b) Prior CZSL methods compose only at the token level, which may not yield valid unseen compositions in the embedding space. (c) We perform explicit composition in the embedding space via learned attribute and object f

実験結果

リサーチクエスチョン

  • RQ1埋め込み空間での明示的な速度ベースの構成は、見たことのない属性-物体の組み合わせに対するCZSLの一般化を改善するか。
  • RQ22つのprimitive-flowとComposerのアーキテクチャは、単一フローや複数フロー変種よりも、クローズドワールドとオープンワールドの丝CZSL設定で優れているか。
  • RQ3漏洩に基づくaugmentationは解離のロバストネスと全体的なCZSL性能を改善するか。
  • RQ4FlowComposerは既存のCZSLベースライン(例:CSP、Troika)へのグローバルなモデル変更なしでどれほど適合するか。
  • RQ5flow-matchingはCZSLの組成性をモデリングするのに、従来のトークンレベルのプロンプト法と比べて適切な paradigms か。

主な発見

MethodSeenUnseenHMAUCSeenUnseenHMAUCSeenUnseenHMAUC
Baseline (Troika)49.352.539.222.166.373.455.441.8
+FlowComposer (CSP)48.350.437.620.766.668.251.237.829.030.922.97.7
+FlowComposer (Troika)50.453.240.223.571.174.958.646.844.834.015.9
  • FlowComposerはCSPおよびTroikaに組み込んだ場合、MIT-States、UT-Zappos、C-GQAの各データセットでHMとAUCを一貫して改善する。
  • クローズドワールドでは、Troikaを用いたFlowComposerが3データセットすべてで最先端のAUCを達成し、いくつかのLLM増強法を超える。
  • オープンワールドでは、FlowComposerは基準と比較して顕著なHMの改善(例:MIT-Statesで+1.3%、UT-Zapposで+4.4%)とAUCの増加をもたらす。
  • アブレーションによって、Flow、Composer、LG-Augの全要素が寄与しており、完全なFlowComposerが最大の改善を与えることが示された。
  • 予測器バリアントとの比較では、Composerの明示的な組み合わせルールが、構成速度の直接回帰よりも有利であることが示された。
  • パラメータ一致の回帰モデルベースラインは、利益はフローマッチング設計から生じ、パラメータ数の増加によるものではないことを示唆する。
Figure 2 : Training dynamics and performance comparison with baseline - Troika [ 15 ] . Our method yields a more balanced seen/unseen accuracy trajectory and consistently improves HM and AUC over the baseline on all three datasets.
Figure 2 : Training dynamics and performance comparison with baseline - Troika [ 15 ] . Our method yields a more balanced seen/unseen accuracy trajectory and consistently improves HM and AUC over the baseline on all three datasets.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。