QUICK REVIEW

[論文レビュー] Unsupervised Prompt Learning for Vision-Language Models

Tony Jun Huang, Jack O. Chu|arXiv (Cornell University)|Apr 7, 2022

Multimodal Machine Learning Applications被引用数 54

ひとこと要約

UPLは、ラベルなしのターゲットデータ上で擬似ラベルを生成し、プロンプトを自己訓練することで、CLIPのプロンプト表現を教師なしに学習し、ターゲット注釈なしで転移を改善する。

ABSTRACT

Contrastive vision-language models like CLIP have shown great progress in transfer learning. In the inference stage, the proper text description, also known as prompt, needs to be carefully designed to correctly classify the given images. In order to avoid laborious prompt engineering, recent works such as CoOp, CLIP-Adapter and Tip-Adapter propose to adapt vision-language models for downstream image recognition tasks on a small set of labeled data. Though promising improvements are achieved, requiring labeled data from the target datasets may restrict the scalability. In this paper, we explore a different scenario, in which the labels of the target datasets are unprovided, and we present an unsupervised prompt learning (UPL) approach to avoid prompt engineering while simultaneously improving transfer performance of CLIP-like vision-language models. As far as we know, UPL is the first work to introduce unsupervised learning into prompt learning. Experimentally, our UPL outperforms original CLIP with prompt engineering on ImageNet as well as other 10 datasets. An enhanced version of UPL is even competitive with the 8-shot CoOp and the 8-shot TIP-Adapter on most datasets. Code and models are available at https://github.com/tonyhuang2022/UPL.

研究の動機と目的

ラベル付きターゲットデータなしでプロンプト学習を動機づけ、CLIP風モデルを改善する。
連続的なプロンプト表現を教師なしで学習することにより、手動のプロンプト設計を排除する。
擬似ラベリングとプロンプト最適化が、多様なデータセットに跨る転移性能にどのように影響するかを分析する。

提案手法

事前学習済みの視覚と言語モデル（例：CLIP）を用いて、ラベルなしターゲットデータの擬似ラベルを生成する。
クラスごとに上位K個の信頼度が高いサンプルを選択して擬似ラベル付きデータを作成し、クラス不均衡の問題を緩和する。
全クラスで共有される学習可能なプロンプト表現を定義し、擬似ラベル付きサンプル上で交差エントロピーを用いて最適化する。
推論時には、手作りのプロンプトを学習されたプロンプト表現に置き換える。
任意で、擬似ラベルのアンサンブル（CLIPモデル間）とプロンプト表現のアンサンブル（複数の学習済みプロンプト）を用いて堅牢性を高める。

実験結果

リサーチクエスチョン

RQ1ターゲット領域のラベルなしで、視覚と言語モデルの転移性能を教師なしのプロンプト学習で向上させることができるか？
RQ2擬似ラベリング戦略（top-K）とアンサンブルが、データセットを横断する転移精度にどう影響するか？
RQ3共有可能な学習可能プロンプト表現は複数のクラスに十分か、それとも複数のプロンプトが有益か？
RQ4擬似ラベルに inherent なノイズとクラス不均衡問題に対して、UPLはどれくらい頑健か？

主な発見

UPLは、ImageNetおよび追加の10データセットで、プロンプト設計を用いた元の CLIP を上回る。
複数の CLIP モデルを用いた擬似ラベル付けを行う強化版 UPL* は、8-shot CoOp および 8-shot Tip-Adapter と多くのデータセットで競争力のある性能を達成する。
Top-K 擬似ラベリングは、閾値によるクラス不均衡と信頼度とラベル品質の弱い相関を回避し、安定性を向上させる。
プロンプト表現アンサンブルは、学習済みプロンプトにおけるクラス特有のバイアスを活用して、さらなる転移性能向上をもたらす。
UPLは、すべてのクラスで共通のプロンプト表現を共有することで、ノイズの多い擬似ラベルに対して頑健であることを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。