[論文レビュー] GraphAdapter: Tuning Vision-Language Models With Dual Knowledge Graph
GraphAdapter は、視覚-言語モデルの微調整においてテキストアダプターを導くデュアル知識グラフ(テキストと視覚)を導入し、GCN を用いて同モダリティ内およびモダリティ間の構造を融合させることで、11 のベンチマークに渡る少数ショット性能を向上させます。
Adapter-style efficient transfer learning (ETL) has shown excellent performance in the tuning of vision-language models (VLMs) under the low-data regime, where only a few additional parameters are introduced to excavate the task-specific knowledge based on the general and powerful representation of VLMs. However, most adapter-style works face two limitations: (i) modeling task-specific knowledge with a single modality only; and (ii) overlooking the exploitation of the inter-class relationships in downstream tasks, thereby leading to sub-optimal solutions. To mitigate that, we propose an effective adapter-style tuning strategy, dubbed GraphAdapter, which performs the textual adapter by explicitly modeling the dual-modality structure knowledge (i.e., the correlation of different semantics/classes in textual and visual modalities) with a dual knowledge graph. In particular, the dual knowledge graph is established with two sub-graphs, i.e., a textual knowledge sub-graph, and a visual knowledge sub-graph, where the nodes and edges represent the semantics/classes and their correlations in two modalities, respectively. This enables the textual feature of each prompt to leverage the task-specific structure knowledge from both textual and visual modalities, yielding a more effective classifier for downstream tasks. Extensive experimental results on 11 benchmark datasets reveal that our GraphAdapter significantly outperforms previous adapter-based methods. The code will be released at https://github.com/lixinustc/GraphAdapter
研究の動機と目的
- パラメータをすべて微調整せず、低データ領域で VLM の効率的な転移学習を動機づける。
- テキスト構造知識とビジュアル構造知識の両方を用いてタスク特有の知識をモデル化する。
- デュアルモダリティグラフを活用して、グラフ畳み込みネットワークを介してテキストアダプターに情報を提供する。
- 多様なデータセットで、従来のアダプター型およびプロンプト型 ETL 手法より優れた性能を示す。
提案手法
- 意味論とクラス間の関係を格納するため、テキストサブグラフと視覚サブグラフを含むデュアル知識グラフを定義する。
- クラスごとの平均プロンプトからテキストノードを構築し、テキスト特徴のコサイン類似度でエッジを作る。
- クラスごとの平均視覚特徴からビジュアルノードを構築し、視覚特徴のコサイン類似度でエッジを作る。
- テキスト特徴 z_t を、テキストグラフと視覚グラフの両方上の GCN で変形させ、豊富な表現を得る。
- 内部モダリティとクロスモダリティ構造知識を、学習可能な融合重み beta で融合し、重み alpha の残差アダプターを適用する。
- 分類をクロスエントロピー損失で最適化しつつ、GCN のみを訓練する。
実験結果
リサーチクエスチョン
- RQ1明示的なデュアルモダリティ構造グラフは、少数ショット設定において VLM のタスク特有の知識抽出を改善できるか?
- RQ2テキストグラフと視覚グラフ、およびそれらの相互作用を統合することが、テキストアダプターの品質にどのように影響するか?
- RQ3下流の分類におけるテキスト構造知識と視覚構造知識の相対的な重要性はどれか?
主な発見
- GraphAdapter は、11 の少数ショットベンチマークで、従来の ETL 手法(例:Prompt/Adapter 風)を一貫して上回る。
- 16-shot 評価では、GraphAdapter は平均 76.22% を達成(いくつかのベースラインは 75.65–76.87%)、FGVCAircraft のような細粒度データセットで顕著な向上を示す。
- アブレーション解析は、テキスト知識のサブグラフが視覚サブグラフよりも重要であることを示す一方、両方を同時にモデル化すると最良の結果が得られる。
- GraphAdapter は複数の CLIP バックボーン(ResNet-50/101、ViT-B/32、ViT-B/16)にまたがって一般化し、クロスドメイン試験(ImageNet-V2、-Sketch、-A、-R)でも利得を維持します。
- GCN と残差融合によるデュアルモダリティ構造知識の有効化が、従来のアダプターより性能を向上させる鍵である。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。