Skip to main content
QUICK REVIEW

[論文レビュー] A Contrastive Learning Framework Empowered by Attention-based Feature Adaptation for Street-View Image Classification

Qi You, Yitai Cheng|arXiv (Cornell University)|Feb 18, 2026
Advanced Neural Network Applications被引用数 0
ひとこと要約

この論文は、CLIP-MHAdapter を提案する。ボトルネック MLP とパッチトークン上のマルチヘッド自己注意を備えた軽量な CLIP 適応モジュールで、CLIP バックボーンを凍結したままグローバルStreetScapes上で訓練コストを低く抑えつつ、細粒度のStreet-view 属性分類の性能を向上または競合させる。

ABSTRACT

Street-view image attribute classification is a vital downstream task of image classification, enabling applications such as autonomous driving, urban analytics, and high-definition map construction. It remains computationally demanding whether training from scratch, initialising from pre-trained weights, or fine-tuning large models. Although pre-trained vision-language models such as CLIP offer rich image representations, existing adaptation or fine-tuning methods often rely on their global image embeddings, limiting their ability to capture fine-grained, localised attributes essential in complex, cluttered street scenes. To address this, we propose CLIP-MHAdapter, a variant of the current lightweight CLIP adaptation paradigm that appends a bottleneck MLP equipped with multi-head self-attention operating on patch tokens to model inter-patch dependencies. With approximately 1.4 million trainable parameters, CLIP-MHAdapter achieves superior or competitive accuracy across eight attribute classification tasks on the Global StreetScapes dataset, attaining new state-of-the-art results while maintaining low computational cost. The code is available at https://github.com/SpaceTimeLab/CLIP-MHAdapter.

研究の動機と目的

  • 大規模モデルの全微調整を伴わずに、細粒度の Street-view 属性分類を正確に行えるようにする。
  • 軽量なパッチレベルの注意機構を用いて、雑然とした都市風景の局所手掛かりを CLIP と組み合わせて捉える。
  • backbone を凍結し、学習可能なモジュールを小規模に保つことでエッジデバイス向けの効率を維持する。
  • Street-view 属性データセットのクラス不均衡を、不均衡対応ウェイティング方式で軽減する。

提案手法

  • CLIP の視覚・テキストバックボーンを凍結し、パッチトークンにボトルネック MLP とマルチヘッド自己注意を追加。
  • パッチレベルの CLIP 埋め込みを処理し、層正規化を適用した後に MHSA でパッチ間の依存性をモデル化。
  • パッチ出力を平均プーリングで集約し、凍結済みのグローバル CLIP 特徴と残差係数 alpha で混合。
  • CLIP のコントラスト学習目標に従い、テキストエンコーダを介してクラス特異的分類器重みをテキストプロンプトで生成。
  • クロスエントロピー損失の不均衡ウェイトを使って学習することでクラス不均衡を緩和。
  • Global StreetScapes データセット上で、Accuracy、Macro-F1、Weighted-F1、Adjusted Balanced Accuracy を用いて評価。

実験結果

リサーチクエスチョン

  • RQ1軽量なパッチレベルの注意機構を持つアダプターは、既存の CLIP 適応法よりも細粒度の SVI 属性分類を改善し得るか。
  • RQ2CLIP バックボーンを保持しつつ小規模な MHAdapter を導入することで、雑然とした街路画像における精度と効率のトレードオフは良好か。
  • RQ3SVI 属性データセットに典型的なクラス不均衡の条件下で方法はどう性能を示すか。

主な発見

Contextual AttributeParadigmModel# T. ParamsAcc.Macro F1Weighted F1Bal. Acc.
GlareZero-shot TransferZeroR-Trainer-97.2149.2995.840.00
GlareZero-shot CLIP-3.032.960.620.24-
GlareVision TransformerMaxViT30.9M94.0963.1595.0339.59
GlareParameter-Efficient AdaptationCLIP-Linear Probe3K95.5153.6195.246.48
GlareCoOp-8K96.6057.2795.9810.89
GlareCLIP-Adapter-0.52M84.1653.6589.1639.26
GlareCLIP-MHAdapter-1.38M95.3263.6895.6932.63
Lighting ConditionZero-shot TransferZeroR-Trainer-64.6626.1850.790.00
Lighting ConditionZero-shot CLIP--95.8887.6595.4576.54
Lighting ConditionVision TransformerMaxViT30.9M96.2390.5596.1584.50
Lighting ConditionParameter-Efficient AdaptationCLIP-Linear Probe3K89.4869.2288.6755.07
Lighting ConditionCoOp-8K94.7781.5093.9268.23
Lighting ConditionCLIP-Adapter-0.52M93.5782.9193.5174.96
Lighting ConditionCLIP-MHAdapter-1.38M96.4690.2996.3583.83
Panoramic StatusZero-shot TransferZeroR-Trainer-95.4948.8593.280.00
Panoramic StatusZero-shot CLIP--11.9211.8514.187.76
Panoramic StatusVision TransformerMaxViT30.9M99.9599.7399.9599.95
Panoramic StatusParameter-Efficient AdaptationCLIP-Linear Probe3K87.7567.7990.8687.17
Panoramic StatusCoOp-8K98.9494.3298.9895.97
Panoramic StatusCLIP-Adapter-0.52M93.6977.6094.8792.42
Panoramic StatusCLIP-MHAdapter-1.38M99.4096.7099.4298.40
PlatformZero-shot TransferZeroR-Trainer-31.698.0215.250.00
PlatformZero-shot CLIP--60.9843.1960.8045.99
PlatformVision TransformerMaxViT30.9M68.2856.6969.2149.87
PlatformParameter-Efficient AdaptationCLIP-Linear Probe3K63.1452.8864.2066.11
PlatformCoOp-8K65.0458.8261.6465.82
PlatformCLIP-Adapter-0.52M68.1257.1569.2171.44
PlatformCLIP-MHAdapter-1.38M69.1260.7967.2764.93
QualityZero-shot TransferZeroR-Trainer-90.8431.7386.480.00
QualityZero-shot CLIP--7.407.328.071.43
QualityVision TransformerMaxViT30.9M79.8840.9583.4127.32
QualityParameter-Efficient AdaptationCLIP-Linear Probe3K86.5753.1887.4133.23
QualityCoOp-8K92.0342.9689.7911.56
QualityCLIP-Adapter-0.52M78.6950.8082.9943.80
QualityCLIP-MHAdapter-1.38M89.0861.4689.6243.78
ReflectionZero-shot TransferZeroR-Trainer-72.5842.0661.050.00
ReflectionZero-shot CLIP--60.2646.3558.69-6.37
ReflectionVision TransformerMaxViT30.9M78.7275.6779.5657.61
ReflectionParameter-Efficient AdaptationCLIP-Linear Probe3K74.9468.1974.8136.02
ReflectionCoOp-8K74.6658.7570.3217.10
ReflectionCLIP-Adapter-0.52M58.7545.9057.81-7.70
ReflectionCLIP-MHAdapter-1.38M76.6964.9374.1026.97
View DirectionZero-shot TransferZeroR-Trainer-88.5246.9583.130.00
View DirectionZero-shot CLIP--37.7735.6244.6916.52
View DirectionVision TransformerMaxViT30.9M87.3877.9989.0682.35
View DirectionParameter-Efficient AdaptationCLIP-Linear Probe3K89.5176.9690.0660.65
View DirectionCoOp-8K92.8980.8792.5556.56
View DirectionCLIP-Adapter-0.52M87.5776.2988.8969.39
View DirectionCLIP-MHAdapter-1.38M95.2887.9595.1973.19
WeatherZero-shot TransferZeroR-Trainer-23.907.729.220.00
WeatherZero-shot CLIP--74.4369.3374.1377.95
WeatherVision TransformerMaxViT30.9M75.4759.9074.1851.04
WeatherParameter-Efficient AdaptationCLIP-Linear Probe3K57.0459.3956.7856.80
WeatherCoOp-8K84.8785.9284.8282.64
WeatherCLIP-Adapter-0.52M88.0187.6988.0886.72
WeatherCLIP-MHAdapter-1.38M81.8485.0882.0483.6
  • CLIP-MHAdapter は Global StreetScapes の8属性において、完全訓練済みベースラインと競合またはそれを上回る精度を達成。
  • 約1.4M の訓練可能パラメータを使用し、完全微調整と比較して大幅にパラメータを削減、効率性が著しく改善。
  • MHAdapter はパッチ間の依存関係と局所的な空間手掛かりを効果的に捉え、細粒度属性認識を向上。
  • 不均衡対応ウェイティングはクラス間の性能バイアスを緩和し、評価全体の公平性を高める。
  • CLIP-MHAdapter におけるプロンプトベースのテキスト分類器は凍結済みテキストエンコーダを活用し、安定した跨モーダル整合を実現。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。