[논문 리뷰] A Contrastive Learning Framework Empowered by Attention-based Feature Adaptation for Street-View Image Classification
논문은 CLIP-MHAdapter를 도입한다. 이는 병목 MLP와 패치 토큰에 대한 다중 헤드 자기 주의(MHSA)를 갖춘 경량 CLIP 적응 모듈로, CLIP 백본을 고정한 상태에서 세부 street-view 속성 분류를 향상시키고 Global StreetScapes에서 더 낮은 학습 비용으로 경쟁적이거나 우수한 성능을 달성한다.
Street-view image attribute classification is a vital downstream task of image classification, enabling applications such as autonomous driving, urban analytics, and high-definition map construction. It remains computationally demanding whether training from scratch, initialising from pre-trained weights, or fine-tuning large models. Although pre-trained vision-language models such as CLIP offer rich image representations, existing adaptation or fine-tuning methods often rely on their global image embeddings, limiting their ability to capture fine-grained, localised attributes essential in complex, cluttered street scenes. To address this, we propose CLIP-MHAdapter, a variant of the current lightweight CLIP adaptation paradigm that appends a bottleneck MLP equipped with multi-head self-attention operating on patch tokens to model inter-patch dependencies. With approximately 1.4 million trainable parameters, CLIP-MHAdapter achieves superior or competitive accuracy across eight attribute classification tasks on the Global StreetScapes dataset, attaining new state-of-the-art results while maintaining low computational cost. The code is available at https://github.com/SpaceTimeLab/CLIP-MHAdapter.
연구 동기 및 목표
- 큰 모델의 전체 미세 조정 없이 정확한 세부 street-view 속성 분류를 가능하게 한다.
- 빠른 경량 어댑터를 가진 패치 수준 주의 기반 CLIP을 활용해 복잡한 도시 현장에서 지역 정보를 포착한다.
- 백본을 고정하고 소형 학습 가능한 모듈을 사용해 엣지 디바이스에 적합한 효율성을 유지한다.
- SVI 속성 데이터셋에서의 클래스 불균형을 불균형 인식 가중치를 통해 해결한다.
제안 방법
- CLIP 시각/텍스트 백본을 고정하고 패치 토큰에 병목 MLP와 다중 헤드 자기 주의를 부착한다.
- 패치 수준 CLIP 임베딩을 처리하고 레이어 정규화를 적용한 뒤 MHSA로 패치 간 의존 관계를 모델링한다.
- 패치 출력을 평균 풀링으로 집계하고 고정된 글로벌 CLIP 특징과 잔차 계수 alpha를 사용해 혼합한다.
- 텍스트 프롬프트를 이용해 CLIP의 대조(objective)에 따라 텍스트 인코더를 통해 클래스별 분류기 가중치를 생성한다.
- 클래스 불균형을 완화하기 위해 교차 엔트로피 손실에서 역빈도 가중치를 사용한다.
- Global StreetScapes 데이터셋에서 정확도, 매크로-F1, 가중 F1, 보정된 균형 정확도로 평가한다.
실험 결과
연구 질문
- RQ1경량의 패치 수준 주의 기반 어댑터가 기존 CLIP 적응 방법을 넘어 세부 SVI 속성 분류를 개선할 수 있는가?
- RQ2CLIP 백본을 보존하면서 작은 MHAdapter를 도입하면 혼잡한 street-view 이미지에서 바람직한 정확도-효율성 트레이드오프를 얻을 수 있는가?
- RQ3SVI 속성 데이터셋의 일반적인 클래스 불균형 조건에서 방법은 어떻게 성능에 영향을 받는가?
주요 결과
| 맥락적 속성 | 패러다임 | 모델 | # 매개변수 | 정확도 | 매크로 F1 | 가중 F1 | 균형 정확도 |
|---|---|---|---|---|---|---|---|
| Glare | Zero-shot Transfer | ZeroR-Trainer | - | 97.21 | 49.29 | 95.84 | 0.00 |
| Glare | Zero-shot CLIP | - | 3.03 | 2.96 | 0.62 | 0.24 | - |
| Glare | Vision Transformer | MaxViT | 30.9M | 94.09 | 63.15 | 95.03 | 39.59 |
| Glare | Parameter-Efficient Adaptation | CLIP-Linear Probe | 3K | 95.51 | 53.61 | 95.24 | 6.48 |
| Glare | CoOp | - | 8K | 96.60 | 57.27 | 95.98 | 10.89 |
| Glare | CLIP-Adapter | - | 0.52M | 84.16 | 53.65 | 89.16 | 39.26 |
| Glare | CLIP-MHAdapter | - | 1.38M | 95.32 | 63.68 | 95.69 | 32.63 |
| Lighting Condition | Zero-shot Transfer | ZeroR-Trainer | - | 64.66 | 26.18 | 50.79 | 0.00 |
| Lighting Condition | Zero-shot CLIP | - | - | 95.88 | 87.65 | 95.45 | 76.54 |
| Lighting Condition | Vision Transformer | MaxViT | 30.9M | 96.23 | 90.55 | 96.15 | 84.50 |
| Lighting Condition | Parameter-Efficient Adaptation | CLIP-Linear Probe | 3K | 89.48 | 69.22 | 88.67 | 55.07 |
| Lighting Condition | CoOp | - | 8K | 94.77 | 81.50 | 93.92 | 68.23 |
| Lighting Condition | CLIP-Adapter | - | 0.52M | 93.57 | 82.91 | 93.51 | 74.96 |
| Lighting Condition | CLIP-MHAdapter | - | 1.38M | 96.46 | 90.29 | 96.35 | 83.83 |
| Panoramic Status | Zero-shot Transfer | ZeroR-Trainer | - | 95.49 | 48.85 | 93.28 | 0.00 |
| Panoramic Status | Zero-shot CLIP | - | - | 11.92 | 11.85 | 14.18 | 7.76 |
| Panoramic Status | Vision Transformer | MaxViT | 30.9M | 99.95 | 99.73 | 99.95 | 99.95 |
| Panoramic Status | Parameter-Efficient Adaptation | CLIP-Linear Probe | 3K | 87.75 | 67.79 | 90.86 | 87.17 |
| Panoramic Status | CoOp | - | 8K | 98.94 | 94.32 | 98.98 | 95.97 |
| Panoramic Status | CLIP-Adapter | - | 0.52M | 93.69 | 77.60 | 94.87 | 92.42 |
| Panoramic Status | CLIP-MHAdapter | - | 1.38M | 99.40 | 96.70 | 99.42 | 98.40 |
| Platform | Zero-shot Transfer | ZeroR-Trainer | - | 31.69 | 8.02 | 15.25 | 0.00 |
| Platform | Zero-shot CLIP | - | - | 60.98 | 43.19 | 60.80 | 45.99 |
| Platform | Vision Transformer | MaxViT | 30.9M | 68.28 | 56.69 | 69.21 | 49.87 |
| Platform | Parameter-Efficient Adaptation | CLIP-Linear Probe | 3K | 63.14 | 52.88 | 64.20 | 66.11 |
| Platform | CoOp | - | 8K | 65.04 | 58.82 | 61.64 | 65.82 |
| Platform | CLIP-Adapter | - | 0.52M | 68.12 | 57.15 | 69.21 | 71.44 |
| Platform | CLIP-MHAdapter | - | 1.38M | 69.12 | 60.79 | 67.27 | 64.93 |
| Quality | Zero-shot Transfer | ZeroR-Trainer | - | 90.84 | 31.73 | 86.48 | 0.00 |
| Quality | Zero-shot CLIP | - | - | 7.40 | 7.32 | 8.07 | 1.43 |
| Quality | Vision Transformer | MaxViT | 30.9M | 79.88 | 40.95 | 83.41 | 27.32 |
| Quality | Parameter-Efficient Adaptation | CLIP-Linear Probe | 3K | 86.57 | 53.18 | 87.41 | 33.23 |
| Quality | CoOp | - | 8K | 92.03 | 42.96 | 89.79 | 11.56 |
| Quality | CLIP-Adapter | - | 0.52M | 78.69 | 50.80 | 82.99 | 43.80 |
| Quality | CLIP-MHAdapter | - | 1.38M | 89.08 | 61.46 | 89.62 | 43.78 |
| Reflection | Zero-shot Transfer | ZeroR-Trainer | - | 72.58 | 42.06 | 61.05 | 0.00 |
| Reflection | Zero-shot CLIP | - | - | 60.26 | 46.35 | 58.69 | -6.37 |
| Reflection | Vision Transformer | MaxViT | 30.9M | 78.72 | 75.67 | 79.56 | 57.61 |
| Reflection | Parameter-Efficient Adaptation | CLIP-Linear Probe | 3K | 74.94 | 68.19 | 74.81 | 36.02 |
| Reflection | CoOp | - | 8K | 74.66 | 58.75 | 70.32 | 17.10 |
| Reflection | CLIP-Adapter | - | 0.52M | 58.75 | 45.90 | 57.81 | -7.70 |
| Reflection | CLIP-MHAdapter | - | 1.38M | 76.69 | 64.93 | 74.10 | 26.97 |
| View Direction | Zero-shot Transfer | ZeroR-Trainer | - | 88.52 | 46.95 | 83.13 | 0.00 |
| View Direction | Zero-shot CLIP | - | - | 37.77 | 35.62 | 44.69 | 16.52 |
| View Direction | Vision Transformer | MaxViT | 30.9M | 87.38 | 77.99 | 89.06 | 82.35 |
| View Direction | Parameter-Efficient Adaptation | CLIP-Linear Probe | 3K | 89.51 | 76.96 | 90.06 | 60.65 |
| View Direction | CoOp | - | 8K | 92.89 | 80.87 | 92.55 | 56.56 |
| View Direction | CLIP-Adapter | - | 0.52M | 87.57 | 76.29 | 88.89 | 69.39 |
| View Direction | CLIP-MHAdapter | - | 1.38M | 95.28 | 87.95 | 95.19 | 73.19 |
| Weather | Zero-shot Transfer | ZeroR-Trainer | - | 23.90 | 7.72 | 9.22 | 0.00 |
| Weather | Zero-shot CLIP | - | - | 74.43 | 69.33 | 74.13 | 77.95 |
| Weather | Vision Transformer | MaxViT | 30.9M | 75.47 | 59.90 | 74.18 | 51.04 |
| Weather | Parameter-Efficient Adaptation | CLIP-Linear Probe | 3K | 57.04 | 59.39 | 56.78 | 56.80 |
| Weather | CoOp | - | 8K | 84.87 | 85.92 | 84.82 | 82.64 |
| Weather | CLIP-Adapter | - | 0.52M | 88.01 | 87.69 | 88.08 | 86.72 |
| Weather | CLIP-MHAdapter | - | 1.38M | 81.84 | 85.08 | 82.04 | 83.6 |
- CLIP-MHAdapter는 Global StreetScapes의 여덟 개 속성에서 전체 학습 기반 대비 경쟁적이거나 우수한 정확도를 달성한다.
- 약 1.4M의 학습 가능 매개변수를 사용하여 전체 미세 조정에 비해 현저히 적은 수로 효율성에서 주목할 만한 개선을 보인다.
- MHAdapter는 패치 간의 의존성과 로컬 공간 정보를 효과적으로 포착하여 세부 속성 인식을 개선한다.
- 불균형 인식 가중치는 클래스 간 성능 편향을 완화하고 평가 전반에서 공정성을 높인다.
- CLIP-MHAdapter의 프롬프트 기반 텍스트 분류기는 고정된 텍스트 인코더를 활용해 안정적이고 교차 모달 정렬성을 제공한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.