[論文レビュー] CHiLS: Zero-Shot Image Classification with Hierarchical Label Sets
CHiLSは、階層ラベル構造から派生したサブクラス集合を予測し、それを元のスーパークラスへ再マッピングすることで、サブクラスとスーパークラスの証拠を再重み付けして結合することにより、ゼロショット CLIP の精度を向上させる。
Open vocabulary models (e.g. CLIP) have shown strong performance on zero-shot classification through their ability generate embeddings for each class based on their (natural language) names. Prior work has focused on improving the accuracy of these models through prompt engineering or by incorporating a small amount of labeled downstream data (via finetuning). However, there has been little focus on improving the richness of the class names themselves, which can pose issues when class labels are coarsely-defined and are uninformative. We propose Classification with Hierarchical Label Sets (or CHiLS), an alternative strategy for zero-shot classification specifically designed for datasets with implicit semantic hierarchies. CHiLS proceeds in three steps: (i) for each class, produce a set of subclasses, using either existing label hierarchies or by querying GPT-3; (ii) perform the standard zero-shot CLIP procedure as though these subclasses were the labels of interest; (iii) map the predicted subclass back to its parent to produce the final prediction. Across numerous datasets with underlying hierarchical structure, CHiLS leads to improved accuracy in situations both with and without ground-truth hierarchical information. CHiLS is simple to implement within existing zero-shot pipelines and requires no additional training cost. Code is available at: https://github.com/acmi-lab/CHILS.
研究の動機と目的
- 豊かなクラス名階層がオープンボキャブラリのゼロショット分類を促進する動機づけ。
- 階層ベースの手法(CHiLS)を提案して、各クラスをゼロショット推論のためのサブクラス集合に変換。
- CHiLSは、ground-truth階層の有無にかかわらず、データセット間で一貫した利得を示す。
- GPT-3が利用不可の場合でも、有効なサブクラス階層を生成できることを示し、追加トレーニングなし。
提案手法
- 各スーパークラス c_i に対して、既存の階層またはGPT-3プロンプトを用いて、サブクラス集合 S_c_i = {s_c_i,1, ..., s_c_i,m_i} を生成する。
- すべてのサブクラスラベルの合併集合(C_sub = ⋃_i S_c_i)に対して、標準的なCLIPゼロショット予測を実行し、サブクラス確率を得る。
- 元のクラス集合 C でスーパークラス確率を計算し、それらをサブクラス確率と対応するスーパークラススコアを掛け合わせることで組み合わせる。
- 最上位のサブクラスを逆写像 G^{-1} を用いてそのスーパークラスにマッピングし、最終予測を生成する。
- 階層が不完全な場合の頑健性を高めるため、スーパークラスの信頼度を活用してサブクラス確率を調整する再重み付け手順を任意で適用する。
- 利用可能な場合は実階層とGPT-3生成階層を用いて実験し、再重み付け手順の有無で性能を評価する。

実験結果
リサーチクエスチョン
- RQ1階層的ラベル構造を活用することは、粗いまたは定義があいまいなクラスラベルを持つデータセットにおいて、ゼロショット CLIP の性能を向上させるだろうか?
- RQ2真の階層が利用可能な場合と、生成する必要がある場合(例:GPT-3)でCHiLSの性能はどう異なり、再重み付け手順はどれほど重要か?
- RQ3異なるサブクラス集合サイズおよび階層情報のノイズがCHiLSの性能に与える影響は何か?
- RQ4CHiLSの利得は、さまざまなバックボーンおよび意味的粒度が異なるデータセットにわたって拡張されるか?
主な発見
- CHiLSは、既存の階層またはGPT-3生成の階層を使用する場合でも、16データセットを横断してベースラインのスーパークラスアプローチよりゼロショット精度を一貫して向上させる。
- 真の階層にアクセスできる場合、いくつかのデータセットで基準値に対して約15–30ポイントの gain が得られる。
- GPT-3生成のサブクラスマッピングは真の階層が利用できない場合でもベースラインより堅牢な利得を提供する。
- 階層が未知またはノイズがある場合、再重み付け手順は性能上重要だが、完璧な真の階層が提供される場合にはその必要性は小さくなる。
- CHiLSは複数のCLIPバックボーンで安定性を示し、サブクラスラベル集合のサイズの中程度の変化には比較的鈍感である。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。