[論文レビュー] Visual Classification via Description from Large Language Models
本論文はカテゴリー名の埋め込みを、GPT-3によって生成された言語で記述された説明語に置換し、それらを CLIP でグラウンディングして、ゼロショットの視覚分類、解釈性、適応性を向上させる。
Vision-language models (VLMs) such as CLIP have shown promising performance on a variety of recognition tasks using the standard zero-shot classification procedure -- computing similarity between the query image and the embedded words for each category. By only using the category name, they neglect to make use of the rich context of additional information that language affords. The procedure gives no intermediate understanding of why a category is chosen, and furthermore provides no mechanism for adjusting the criteria used towards this decision. We present an alternative framework for classification with VLMs, which we call classification by description. We ask VLMs to check for descriptive features rather than broad categories: to find a tiger, look for its stripes; its claws; and more. By basing decisions on these descriptors, we can provide additional cues that encourage using the features we want to be used. In the process, we can get a clear idea of what features the model uses to construct its decision; it gains some level of inherent explainability. We query large language models (e.g., GPT-3) for these descriptors to obtain them in a scalable way. Extensive experiments show our framework has numerous advantages past interpretability. We show improvements in accuracy on ImageNet across distribution shifts; demonstrate the ability to adapt VLMs to recognize concepts unseen during training; and illustrate how descriptors can be edited to effectively mitigate bias compared to the baseline.
研究の動機と目的
- 視覚カテゴリの生のカテゴリー名を、記述的な言語的説明子に置換する動機付け。
- 大規模言語モデルを用いて説明子を生成する拡張可能な方法を提案する。
- 視覚言語モデルで説明子をグラウンディングし、カテゴリスコアを透明に計算する。
- 精度の向上、新規概念への適応性、およびバイアス訂正機能を実証する。
提案手法
- カテゴリ c を、自然言語の文として表現された記述子の集合 D(c) によって表現する。
- カテゴリスコア s(c, x) を、記述子の関連度の平均として計算する: s(c,x)= (1/|D(c)|) * sum_{d in D(c)} phi(d,x), ここで phi(d,x) は画像 x に関連する記述子 d の対数確率である。
- 大規模言語モデル(例:GPT-3)に対して ‘What are useful features for distinguishing a {category} in a photo?’ のような問いを入力して D(c) を自動的に構築する。
- クラス名を条件として、画像とテキスト記述子の類似度を測定することで、CLIP を用いて記述子をグラウンディングする。
- 特定の画像に対してどの記述子が活性化したか、なぜそのカテゴリが選択されたのかを検査できるようにして、解釈性を提供する。
- 最も高い s(c,x) を持つカテゴリを選択することで分類を実行する。
- バイアスを緩和し、新しい概念に適応するために記述子を編集する方法を説明する。
実験結果
リサーチクエスチョン
- RQ1 descriptor-based classification using LLM-generated attributes は、標準的な CLIP スタイルのカテゴリ名埋め込みよりも精度を改善できるか?
- RQ2 descriptor-based models は、決定を導く特徴を公開することによって inherent な解釈性を提供するか?
- RQ3 GPT-3由来の説明子は、訓練時には見られなかった概念の認識を可能にするか?
- RQ4 記述子の編集は、バイアスに影響を与え、人口統計的または文化的サブグループ間の公平性を改善できるか?
主な発見
| φ のアーキテクチャ | 私たちのモデル(ImageNet) | CLIP(ImageNet) | Δ(ImageNet) | 私たちのモデル(ImageNetV2) | CLIP(ImageNetV2) | Δ(ImageNetV2) | 私たちのモデル(CUB) | CLIP(CUB) | Δ(CUB) | 私たちのモデル(EuroSAT) | CLIP(EuroSAT) | Δ(EuroSAT) |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| ViT-B/32 | 62.97 | 58.46 | 4.51 | 55.52 | 51.90 | 3.62 | 52.57 | 51.95 | 0.62 | 48.94 | 43.84 | 5.10 |
- CLIPを超える一貫した精度向上を複数のデータセットで実現し、ImageNet で約3–5%、一部の非自然画像ドメインで最大約7%の改善を報告。
- GPT-3 の記述子を活用して訓練後に新規概念を認識する能力を示し、Wordle や Ever Given などの例で top-10 で 100% のリコールを達成、CLIP が失敗するケースに対応。
- 記述子は決定に寄与した特徴を示すことで予測を説明可能にする。
- 記述子の編集は偏見を緩和し、代表性の低いグループの精度を改善する。
- このアプローチは追加の訓練を必要とせず、解釈性を得られ、LLMsによる記述子生成とともに拡張性を持つ。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。