[論文レビュー] Patching open-vocabulary models by interpolating weights
PAINT は、ゼロショットとファインチューニング後の重みの線形補間によりオープンボキャブラリモデルのパッチ適用を行い、パッチングタスクの精度を向上させつつ、対応タスク上の性能を大きく損なわず、マルチタスクのパッチ適用と広範な転移を可能にする。
Open-vocabulary models like CLIP achieve high accuracy across many image classification tasks. However, there are still settings where their zero-shot performance is far from optimal. We study model patching, where the goal is to improve accuracy on specific tasks without degrading accuracy on tasks where performance is already adequate. Towards this goal, we introduce PAINT, a patching method that uses interpolations between the weights of a model before fine-tuning and the weights after fine-tuning on a task to be patched. On nine tasks where zero-shot CLIP performs poorly, PAINT increases accuracy by 15 to 60 percentage points while preserving accuracy on ImageNet within one percentage point of the zero-shot model. PAINT also allows a single model to be patched on multiple tasks and improves with model scale. Furthermore, we identify cases of broad transfer, where patching on one task increases accuracy on other tasks even when the tasks have disjoint classes. Finally, we investigate applications beyond common benchmarks such as counting or reducing the impact of typographic attacks on CLIP. Our findings demonstrate that it is possible to expand the set of tasks on which open-vocabulary models achieve high accuracy without re-training them from scratch.
研究の動機と目的
- オープンボキャブラリモデルの既存の能力を損なうことなく、特定のタスク精度を向上させる必要性を動機づける。
- 事前ファインチューニング前と後の重みの補間に基づく、単純な2段階のパッチ方法(PAINT)を導入する。
- 複数のデータセットとモデルスケールにわたるパッチ適用の有効性を示し、マルチタスクおよび広範囲な転移シナリオを含む。
提案手法
- パッチングタスクでゼロショットモデルをファインチューニングして ft 重みを得る。
- 混合係数 alpha を用いてゼロショットとファインチューニング後の重みを線形補間し、パッチ済みモデルを得る。
- パッチングおよびサポートタスクのホールドアウト検証を用いて alpha を選択する。
- PAINT を結合・逐次・並列戦略を通じて複数のパッチタスクに適用し、性能を比較する。
- 規模が大きくなるにつれて、パッチ適用の有効性とモデルの類似性(CKA)を研究するために CLIP ViT-L/14 および ViT-L/14 のスケールを用いる。
実験結果
リサーチクエスチョン
- RQ1ゼロショットとファインチューニング後の重みの補間は、サポートタスクの性能を劣化させることなく、パッチタスクの性能を向上させることができるか?
- RQ2モデル規模は、重み補間パッチ適用の有効性と安定性にどのような影響を与えるか?
- RQ31つのモデルを複数タスクにパッチすることは実現可能か、タスク固有モデルと比較してどうか?
- RQ41つのタスクへのパッチが、関連タスクまたは別タスクへ広範な転移効果をもたらすか?
- RQ5PAINT が利点を提供する実用的なケーススタディ(例:活字攻撃、カウント、VQA など)は何か?
主な発見
| Task | Unpatched accuracy | Patched accuracy | (+Δ) |
|---|---|---|---|
| Cars | 86.2 | 87.0 | +0.8 |
| DTD | 64.9 | 66.1 | +1.2 |
| EuroSAT | 79.9 | 87.2 | +7.3 |
| GTSRB | 51.7 | 71.1 | +19.4 |
| KITTI | 43.4 | 60.4 | +17.0 |
| MNIST | 82.6 | 91.3 | +8.7 |
| RESISC45 | 73.4 | 74.2 | +0.8 |
| SUN397 | 76.9 | 79.3 | +2.4 |
| SVHN | 72.8 | 88.9 | +16.1 |
- PAINT は9つのパッチタスクで15〜60ポイントの改善をもたらしながら、ImageNet の精度をゼロショットモデルの<1ポイントの差以内に保つ。
- パッチ適用の有効性はモデル規模が大きいほど高まり、未パッチとファインチューニング後の重み・表現の整合性がより近づく。
- 複数タスクにパッチを適用した場合、単一のパッチ済みモデルが複数の特化モデルと同等または近づく(平均総合精度は約0.5パーセントポイント程度内)
- パッチベースの広範な転移は、クラススペースが離れていても関連タスクを改善する(例:EuroSAT/RESISC45、MNIST/SVHN など)。
- PAINT はケーススタディで堅牢な向上を達成:活字攻撃耐性が最大41ポイント向上、未知の数字のカウントが59%から99%以上へ、ImageNet への影響は最小限、VQA の性能が約18ポイント向上し、ImageNet の低下は最小限。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。