[論文レビュー] POUF: Prompt-oriented unsupervised fine-tuning for large pre-trained models
POUFは、ラベルなしのターゲットデータとテキストプロトタイプを整列させる教師なし微調整フレームワークで、輸送ベースの整列と相互情報最大化を通じて、言語強化ビジョンとマスク済み言語モデルのゼロショット適応を実現します。
Through prompting, large-scale pre-trained models have become more expressive and powerful, gaining significant attention in recent years. Though these big models have zero-shot capabilities, in general, labeled data are still required to adapt them to downstream tasks. To overcome this critical limitation, we propose an unsupervised fine-tuning framework to directly fine-tune the model or prompt on the unlabeled target data. We demonstrate how to apply our method to both language-augmented vision and masked-language models by aligning the discrete distributions extracted from the prompts and target data. To verify our approach's applicability, we conduct extensive experiments on image classification, sentiment analysis, and natural language inference tasks. Across 13 image-related tasks and 15 language-related ones, the proposed approach achieves consistent improvements over the baselines.
研究の動機と目的
- 事前学習データとターゲットデータ間の分布シフトをラベルを使わずに解決する。
- ソースデータを効率的に表現するため、テキストプロンプトからクラスプロトタイプを構築する。
- 輸送ベースの手法と相互情報の目的関数を用いて、テキストプロトタイプとターゲット特徴を整列させる。
- 完全モデル調整またはソフトプロンプト調整のいずれかで、言語強化ビジョンモデルとマスク言語モデルの両方をサポートする。
- 画像分類、感情分析、自然言語推論タスクを横断して有効性を示す。
提案手法
- 言語強化ビジョンモデルにおいて各クラスのテキストプロトタイプをプロンプトを用いて構築する。
- テキストプロトタイプとターゲット特徴の離散分布を定義し、条件輸送(CT)を介して整列させる。
- 崩壊を避けるためのモード探索輸送項L_t→wとモードカバーリング項L_w→tを用い、事前分布p(w_k)と学習可能なクラス事前分布を取り得る。
- 輸送コストと相互情報の目的関数を組み合わせた結合損失を最適化し、多様で自信ある予測を促進する(L_transport + L_mi)。
- 本フレームワークを二つの設定で適用する:言語強化ビジョンモデル(例:CLIP)とマスク言語モデル(例:RoBERTa)、完全モデル調整またはソフトプロンプト調整。
- 各設定でテキストプロトタイプを構築する手順の詳細を提供する(CLIP向けのテキストプロンプト、MLMs向けのデコーダーヘッド重み)。
実験結果
リサーチクエスチョン
- RQ1ラベルなしターゲットデータでの教師なし微調整は、事前学習済み大規模モデルのゼロショット性能を改善するか?
- RQ2テキストベースのクラスプロトタイプは、分布シフトを brid ge するソースドメイン情報を効果的に表現できるか?
- RQ3POUFにおいてどの分布整列機構(CT vs OT)が実用的な性能をより良く出すか?
- RQ4POUFは視覚言語モデルと純NLPモデルの両方で、完全モデル調整とプロンプト調整の両方に適合するか?
- RQ5ターゲットラベルにアクセスせずに、様々なタスクとデータセットでPOUFはどのように機能するか?
主な発見
- POUFは、13の画像タスクと15の言語タスク全体でゼロショットベースラインを一貫して上回る改善を示した。
- CTベースの輸送整列はこのフレームワークでOTベースのアプローチより優れている。
- POUFはプロンプト調整と完全モデル調整の両方の恩恵を受け、プロンプト調整はメモリ使用量を抑える。
- CLIPベースの視覚タスクでは、Office-31、Office-Home、DomainNetで他のベースラインと比較して精度が向上した。
- RoBERTa-largeの言語タスクでは、ゼロショットベースラインと比較して多くの感情分析とNLPタスクで精度が大幅に向上した。
- 総じて、POUFはラベルなしターゲットデータ上で直接的な無監督適応の有効性を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。