Skip to main content
QUICK REVIEW

[論文レビュー] DualCoOp: Fast Adaptation to Multi-Label Recognition with Limited Annotations

Ximeng Sun, Ping Hu|arXiv (Cornell University)|Jun 20, 2022
Text and Document Classification Technologies被引用数 42
ひとこと要約

DualCoOpは、二重の正/負プロンプトとクラス固有の領域特徴集約を活用して、視覚-言語モデル(CLIP)を限られた注釈とゼロショットの状況に適応させ、多ラベル認識を実現します。学習可能パラメータを最小化した状態で最新の結果を達成。

ABSTRACT

Solving multi-label recognition (MLR) for images in the low-label regime is a challenging task with many real-world applications. Recent work learns an alignment between textual and visual spaces to compensate for insufficient image labels, but loses accuracy because of the limited amount of available MLR annotations. In this work, we utilize the strong alignment of textual and visual features pretrained with millions of auxiliary image-text pairs and propose Dual Context Optimization (DualCoOp) as a unified framework for partial-label MLR and zero-shot MLR. DualCoOp encodes positive and negative contexts with class names as part of the linguistic input (i.e. prompts). Since DualCoOp only introduces a very light learnable overhead upon the pretrained vision-language framework, it can quickly adapt to multi-label recognition tasks that have limited annotations and even unseen classes. Experiments on standard multi-label recognition benchmarks across two challenging low-label settings demonstrate the advantages of our approach over state-of-the-art methods.

研究の動機と目的

  • 限られた注釈と実用的なゼロショット設定の下で、マルチラベル認識を動機づける。
  • 軽量なプロンプト学習を用いて事前学習済みの視覚言語ALIGNMENT(CLIP)を活用する。
  • 各クラスごとに頑健な分類器を生成する二重プロンプト(正/負)フレームワークを開発する。
  • クラス固有の領域特徴集約によって、複数オブジェクトのシーンの空間モデリングを改善する。
  • 部分ラベルおよびゼロショットのMLRベンチマークで高い性能を示す。

提案手法

  • CLIPテキストエンコーダに入力される、クラスごとの二重プロンプト(正/負)を用いたDualCoOpを導入する。
  • テキスト空間へ射影された領域単位の視覚特徴を計算し、領域ロジットのクラス固有の集約を行う。
  • CLIPを凍結したまま、プロンプトのみを訓練するASL損失を用いる。
  • 標準のCLIP注意機構プーリングを、空間情報をより適切に捉えるようにクラス固有の領域特徴集約に置き換える。
  • 推論時には正ロジットと負ロジットを比較して、画像ごとに各ラベルを予測する。

実験結果

リサーチクエスチョン

  • RQ1限られたラベルで、視覚-言語モデルをどのように効率的に多ラベル認識へ適応させるか?
  • RQ2二重プロンプト(正/負)は、MLRにおける存在ラベルと不在ラベルの判別を改善するか?
  • RQ3クラス固有の空間的集約は、標準的なアテンションプーリングよりも多ラベル認識を改善できるか?
  • RQ4部分ラベルMLRおよびゼロショットMLR設定におけるDualCoOpの性能は、最先端と比較してどうか?
  • RQ5データセットを横断して、最小の学習可能パラメータでアプローチはスケール可能か?

主な発見

手法#P10%20%30%40%50%60%70%80%90%平均
SSGRL64.7M62.570.573.274.576.376.577.177.978.474.1
GCN-ML44.9M63.870.972.874.076.777.177.378.378.674.4
KGGR≥25M66.671.473.876.777.577.978.478.779.175.6
Curriculum labeling≥38M26.731.851.565.470.071.974.077.478.060.7
Partial BCE≥38M61.670.574.176.377.277.778.278.478.574.7
SST33.5M68.173.575.977.378.178.979.279.679.976.7
SST*33.5M69.178.579.379.980.180.581.180.780.778.9
SARB29.6M71.275.077.178.378.979.679.880.580.577.9
SARB*29.6M75.578.579.079.580.480.280.880.680.879.4
DualCoOp (ours)1.3M78.780.981.782.082.582.782.883.083.181.9
  • DualCoOpは、最小限の学習可能パラメータ(1.3M)で、MS-COCOとVOC2007の部分ラベル設定において最良のmAPを達成。
  • VOC2007では、10%ラベリング時に2位手法より6.8ポイントのmAP向上。
  • MS-COCOおよびNUS-WIDEのゼロショットMLRで、Top-3/Top-5のF1で最高結果を出し、パラメータオーバーヘッドは非常に小さい(0.02M)。
  • クラス固有の領域特徴集約は、標準のCLIP注意プーリングよりも優れており、特に高解像度入力で効果を発揮する。
  • 正と負の二重プロンプトは、下流の分類性能を高める補完的なテキスト文脈を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。