Skip to main content
QUICK REVIEW

[논문 리뷰] A Contrastive Learning Framework Empowered by Attention-based Feature Adaptation for Street-View Image Classification

Qi You, Yitai Cheng|arXiv (Cornell University)|2026. 02. 18.
Advanced Neural Network Applications인용 수 0
한 줄 요약

논문은 CLIP-MHAdapter를 도입한다. 이는 병목 MLP와 패치 토큰에 대한 다중 헤드 자기 주의(MHSA)를 갖춘 경량 CLIP 적응 모듈로, CLIP 백본을 고정한 상태에서 세부 street-view 속성 분류를 향상시키고 Global StreetScapes에서 더 낮은 학습 비용으로 경쟁적이거나 우수한 성능을 달성한다.

ABSTRACT

Street-view image attribute classification is a vital downstream task of image classification, enabling applications such as autonomous driving, urban analytics, and high-definition map construction. It remains computationally demanding whether training from scratch, initialising from pre-trained weights, or fine-tuning large models. Although pre-trained vision-language models such as CLIP offer rich image representations, existing adaptation or fine-tuning methods often rely on their global image embeddings, limiting their ability to capture fine-grained, localised attributes essential in complex, cluttered street scenes. To address this, we propose CLIP-MHAdapter, a variant of the current lightweight CLIP adaptation paradigm that appends a bottleneck MLP equipped with multi-head self-attention operating on patch tokens to model inter-patch dependencies. With approximately 1.4 million trainable parameters, CLIP-MHAdapter achieves superior or competitive accuracy across eight attribute classification tasks on the Global StreetScapes dataset, attaining new state-of-the-art results while maintaining low computational cost. The code is available at https://github.com/SpaceTimeLab/CLIP-MHAdapter.

연구 동기 및 목표

  • 큰 모델의 전체 미세 조정 없이 정확한 세부 street-view 속성 분류를 가능하게 한다.
  • 빠른 경량 어댑터를 가진 패치 수준 주의 기반 CLIP을 활용해 복잡한 도시 현장에서 지역 정보를 포착한다.
  • 백본을 고정하고 소형 학습 가능한 모듈을 사용해 엣지 디바이스에 적합한 효율성을 유지한다.
  • SVI 속성 데이터셋에서의 클래스 불균형을 불균형 인식 가중치를 통해 해결한다.

제안 방법

  • CLIP 시각/텍스트 백본을 고정하고 패치 토큰에 병목 MLP와 다중 헤드 자기 주의를 부착한다.
  • 패치 수준 CLIP 임베딩을 처리하고 레이어 정규화를 적용한 뒤 MHSA로 패치 간 의존 관계를 모델링한다.
  • 패치 출력을 평균 풀링으로 집계하고 고정된 글로벌 CLIP 특징과 잔차 계수 alpha를 사용해 혼합한다.
  • 텍스트 프롬프트를 이용해 CLIP의 대조(objective)에 따라 텍스트 인코더를 통해 클래스별 분류기 가중치를 생성한다.
  • 클래스 불균형을 완화하기 위해 교차 엔트로피 손실에서 역빈도 가중치를 사용한다.
  • Global StreetScapes 데이터셋에서 정확도, 매크로-F1, 가중 F1, 보정된 균형 정확도로 평가한다.

실험 결과

연구 질문

  • RQ1경량의 패치 수준 주의 기반 어댑터가 기존 CLIP 적응 방법을 넘어 세부 SVI 속성 분류를 개선할 수 있는가?
  • RQ2CLIP 백본을 보존하면서 작은 MHAdapter를 도입하면 혼잡한 street-view 이미지에서 바람직한 정확도-효율성 트레이드오프를 얻을 수 있는가?
  • RQ3SVI 속성 데이터셋의 일반적인 클래스 불균형 조건에서 방법은 어떻게 성능에 영향을 받는가?

주요 결과

맥락적 속성패러다임모델# 매개변수정확도매크로 F1가중 F1균형 정확도
GlareZero-shot TransferZeroR-Trainer-97.2149.2995.840.00
GlareZero-shot CLIP-3.032.960.620.24-
GlareVision TransformerMaxViT30.9M94.0963.1595.0339.59
GlareParameter-Efficient AdaptationCLIP-Linear Probe3K95.5153.6195.246.48
GlareCoOp-8K96.6057.2795.9810.89
GlareCLIP-Adapter-0.52M84.1653.6589.1639.26
GlareCLIP-MHAdapter-1.38M95.3263.6895.6932.63
Lighting ConditionZero-shot TransferZeroR-Trainer-64.6626.1850.790.00
Lighting ConditionZero-shot CLIP--95.8887.6595.4576.54
Lighting ConditionVision TransformerMaxViT30.9M96.2390.5596.1584.50
Lighting ConditionParameter-Efficient AdaptationCLIP-Linear Probe3K89.4869.2288.6755.07
Lighting ConditionCoOp-8K94.7781.5093.9268.23
Lighting ConditionCLIP-Adapter-0.52M93.5782.9193.5174.96
Lighting ConditionCLIP-MHAdapter-1.38M96.4690.2996.3583.83
Panoramic StatusZero-shot TransferZeroR-Trainer-95.4948.8593.280.00
Panoramic StatusZero-shot CLIP--11.9211.8514.187.76
Panoramic StatusVision TransformerMaxViT30.9M99.9599.7399.9599.95
Panoramic StatusParameter-Efficient AdaptationCLIP-Linear Probe3K87.7567.7990.8687.17
Panoramic StatusCoOp-8K98.9494.3298.9895.97
Panoramic StatusCLIP-Adapter-0.52M93.6977.6094.8792.42
Panoramic StatusCLIP-MHAdapter-1.38M99.4096.7099.4298.40
PlatformZero-shot TransferZeroR-Trainer-31.698.0215.250.00
PlatformZero-shot CLIP--60.9843.1960.8045.99
PlatformVision TransformerMaxViT30.9M68.2856.6969.2149.87
PlatformParameter-Efficient AdaptationCLIP-Linear Probe3K63.1452.8864.2066.11
PlatformCoOp-8K65.0458.8261.6465.82
PlatformCLIP-Adapter-0.52M68.1257.1569.2171.44
PlatformCLIP-MHAdapter-1.38M69.1260.7967.2764.93
QualityZero-shot TransferZeroR-Trainer-90.8431.7386.480.00
QualityZero-shot CLIP--7.407.328.071.43
QualityVision TransformerMaxViT30.9M79.8840.9583.4127.32
QualityParameter-Efficient AdaptationCLIP-Linear Probe3K86.5753.1887.4133.23
QualityCoOp-8K92.0342.9689.7911.56
QualityCLIP-Adapter-0.52M78.6950.8082.9943.80
QualityCLIP-MHAdapter-1.38M89.0861.4689.6243.78
ReflectionZero-shot TransferZeroR-Trainer-72.5842.0661.050.00
ReflectionZero-shot CLIP--60.2646.3558.69-6.37
ReflectionVision TransformerMaxViT30.9M78.7275.6779.5657.61
ReflectionParameter-Efficient AdaptationCLIP-Linear Probe3K74.9468.1974.8136.02
ReflectionCoOp-8K74.6658.7570.3217.10
ReflectionCLIP-Adapter-0.52M58.7545.9057.81-7.70
ReflectionCLIP-MHAdapter-1.38M76.6964.9374.1026.97
View DirectionZero-shot TransferZeroR-Trainer-88.5246.9583.130.00
View DirectionZero-shot CLIP--37.7735.6244.6916.52
View DirectionVision TransformerMaxViT30.9M87.3877.9989.0682.35
View DirectionParameter-Efficient AdaptationCLIP-Linear Probe3K89.5176.9690.0660.65
View DirectionCoOp-8K92.8980.8792.5556.56
View DirectionCLIP-Adapter-0.52M87.5776.2988.8969.39
View DirectionCLIP-MHAdapter-1.38M95.2887.9595.1973.19
WeatherZero-shot TransferZeroR-Trainer-23.907.729.220.00
WeatherZero-shot CLIP--74.4369.3374.1377.95
WeatherVision TransformerMaxViT30.9M75.4759.9074.1851.04
WeatherParameter-Efficient AdaptationCLIP-Linear Probe3K57.0459.3956.7856.80
WeatherCoOp-8K84.8785.9284.8282.64
WeatherCLIP-Adapter-0.52M88.0187.6988.0886.72
WeatherCLIP-MHAdapter-1.38M81.8485.0882.0483.6
  • CLIP-MHAdapter는 Global StreetScapes의 여덟 개 속성에서 전체 학습 기반 대비 경쟁적이거나 우수한 정확도를 달성한다.
  • 약 1.4M의 학습 가능 매개변수를 사용하여 전체 미세 조정에 비해 현저히 적은 수로 효율성에서 주목할 만한 개선을 보인다.
  • MHAdapter는 패치 간의 의존성과 로컬 공간 정보를 효과적으로 포착하여 세부 속성 인식을 개선한다.
  • 불균형 인식 가중치는 클래스 간 성능 편향을 완화하고 평가 전반에서 공정성을 높인다.
  • CLIP-MHAdapter의 프롬프트 기반 텍스트 분류기는 고정된 텍스트 인코더를 활용해 안정적이고 교차 모달 정렬성을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.