[논문 리뷰] Fine-grained Visual Classification with High-temperature Refinement and Background Suppression
HERBS는 배경 억제 모듈과 고온 정제 모듈을 도입하여 배경 소음을 줄이고 다중 스케일 특징을 다양하게 학습함으로써 FGVC를 개선하고, CUB-200-2011과 NABirds에서 최첨단 성과를 달성한다.
Fine-grained visual classification is a challenging task due to the high similarity between categories and distinct differences among data within one single category. To address the challenges, previous strategies have focused on localizing subtle discrepancies between categories and enhencing the discriminative features in them. However, the background also provides important information that can tell the model which features are unnecessary or even harmful for classification, and models that rely too heavily on subtle features may overlook global features and contextual information. In this paper, we propose a novel network called ``High-temperaturE Refinement and Background Suppression'' (HERBS), which consists of two modules, namely, the high-temperature refinement module and the background suppression module, for extracting discriminative features and suppressing background noise, respectively. The high-temperature refinement module allows the model to learn the appropriate feature scales by refining the features map at different scales and improving the learning of diverse features. And, the background suppression module first splits the features map into foreground and background using classification confidence scores and suppresses feature values in low-confidence areas while enhancing discriminative features. The experimental results show that the proposed HERBS effectively fuses features of varying scales, suppresses background noise, discriminative features at appropriate scales for fine-grained visual classification.The proposed method achieves state-of-the-art performance on the CUB-200-2011 and NABirds benchmarks, surpassing 93% accuracy on both datasets. Thus, HERBS presents a promising solution for improving the performance of fine-grained visual classification tasks. code: https://github.com/chou141253/FGVC-HERBS
연구 동기 및 목표
- 맥락/배경 정보를 활용하면서 시각적으로 유사한 세밀한 분류 범주를 구분하는 문제를 다룬다.
- CNN 또는 트랜스포머 백본과 엔드-투-엔드 방식으로 통합될 수 있는 모듈식 프레임워크를 개발한다.
- 배경 억제(background suppression)와 고온 정제(high-temperature refinement)를 통한 특징 학습을 향상시켜 다중 스케일 특징을 융합한다.
제안 방법
- 경 Confidence에 따라 영역을 분류하는 Background Suppression(BS)을 도입하고, top-k 특징을 그래프 컨볼루션 기반 선택기/결합기와 병합하며, 배경 특징을 억제하기 위한 드롭된 손실(dropped loss)을 사용한다.
- 초기 온도가 높은 상태에서 학습하여 에포크가 진행되면서 감소하는 방식으로 다양하고 다중 스케일 특징을 학습하는 고온 정제(high-temperature refinement)를 적용한다.
- BS와 고온 정제를 HERBS 모듈로 결합하고 상향-하향 피처 융합 모듈을 통해 백본(CNN 또는 Transformer)에 통합한다.
- 다중 손실 조합(loss_bs = loss_m + lambda_d loss_d + lambda_l loss_l)을 사용하여 BS를 학습시키고, 서로 다른 온도에서의 다중 클래스 출력 간 KL발산(KL-divergence)에 의해 가이드되는 정제 손실을 사용한다.
- 훈련 초기의 탐색을 촉진하고 이후 더 정밀한 구분을 가능하게 하는 온도 감소 스케줄 T_e를 적용한다(초기 고값에서 감소).
- 표준 데이터 증강 및 학습 설정을 사용하여 CUB-200-2011 및 NABirds 벤치마크로 평가하고, 참조된 GitHub 저장소에 오픈 소스 코드를 제공한다.

실험 결과
연구 질문
- RQ1배경 억제가 유용한 컨텍스트 정보를 버리지 않으면서도 FGVC를 향상시킬 수 있는가?
- RQ2고온 정제 전략으로 다중 스케일 특징을 학습하는 것이 세밀한 범주에 대해 더 나은 판별 표현을 제공하는가?
- RQ3BS와 고온 정제는 CNN과 비전 트랜스포머 백본에서 FGVC에 대해 효과적인가?
- RQ4상향-하향 경로 융합 및 다중 클래스 분류기가 FGVC 정확도에 미치는 영향은 무엇인가?
주요 결과
| 데이터셋 | 방법 | Top-1 정확도 (%) |
|---|---|---|
| CUB-200-2011 | FFVT | 91.6 |
| CUB-200-2011 | ViT-NeT | 91.7 |
| CUB-200-2011 | TransFG | 91.7 |
| CUB-200-2011 | IELT | 91.8 |
| CUB-200-2011 | SIM-Trans | 91.8 |
| CUB-200-2011 | SAC | 91.8 |
| CUB-200-2011 | CAP | 91.9 |
| CUB-200-2011 | SR-GNN | 91.9 |
| CUB-200-2011 | DCAL | 92.0 |
| CUB-200-2011 | MetaFormer | 92.4 |
| CUB-200-2011 | HERBS | 93.1 |
| NA-Birds | FFVT | N/A |
| NA-Birds | CAP | 91.0 |
| NA-Birds | SR-GNN | 91.2 |
| NA-Birds | MetaFormer | 92.7 |
| NA-Birds | HERBS | 93.0 |
- CUB-200-2011(93.1%) 및 NABirds(93.0%)에서 최첨단 Top-1 정확도를 달성한다.
- 모듈 전체를 갖춘 HERBS가 Swin Transformer 및 ResNet-50 백본 전반에 걸쳐 기본 백본 및 다양한 모듈 조합을 능가한다.
- BS 모듈은 배경 소음을 줄이고 구분 가능한 특징의 집중을 개선하며, 절단 연구 및 히트 맵 분석으로 확인된다.
- 고온 정제는 다양하고 넓은 특징 표현의 학습을 촉진하고 스케일 간 정확도를 향상시킨다.
- 전체 HERBS 프레임워크를 추가하면 단일 모듈만 사용할 때보다 더 큰 정확도 향상을 가져오며(백본에 따라 +1.0~+1.6 포인트),
- 표 IV는 HERBS가 CUB-200-2011 데이터셋 내 미세 부분 범주에서 정밀도 향상 및 위양성 감소를 시사한다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.