QUICK REVIEW

[논문 리뷰] SVD-ViT: Does SVD Make Vision Transformers Attend More to the Foreground?

Haruhiko Murata, Kazuhiro Hotta|arXiv (Cornell University)|2026. 02. 02.

Advanced Neural Network Applications인용 수 0

한 줄 요약

SVD-ViT는 ViT에 특이값 분해(SVD)를 통합하여 SPC 토큰과 선택적 SSVA/ID-RSVD 모듈을 통해 전경 특징을 강조하고, 여러 미세-세부 및 일반 데이터셋에서 정확도를 향상시킵니다.

ABSTRACT

Vision Transformers (ViT) have been established as large-scale foundation models. However, because self-attention operates globally, they lack an explicit mechanism to distinguish foreground from background. As a result, ViT may learn unnecessary background features and artifacts, leading to degraded classification performance. To address this issue, we propose SVD-ViT, which leverages singular value decomposition (SVD) to prioritize the learning of foreground features. SVD-ViT consists of three components- extbf{SPC module}, extbf{SSVA}, and extbf{ID-RSVD}-and suppresses task-irrelevant factors such as background noise and artifacts by extracting and aggregating singular vectors that capture object foreground information. Experimental results demonstrate that our method improves classification accuracy and effectively learns informative foreground representations while reducing the impact of background noise.

연구 동기 및 목표

ViT의 글로벌 자기주의를 통한 전경-배경 분리와 배경 노이즈의 문제를 동기화합니다.
전경 강조를 위한 집계 토큰을 생성하기 위해 선도 특이 벡터를 사용하는 SPC 모듈을 도입합니다.
선별적으로 식별적 특이 방향을 통합하기 위한 SSVA와 ID-RSVD를 제안합니다.
ViT 기준선과 비교하여 다섯 가지 이미지 인식 벤치마크에서 분류 정확도를 개선된 것을 보여줍니다.

제안 방법

ViT 중간 특징에 랜덤화된 SVD(RSVD)를 적용하여 전경 구조를 포착하는 상위 좌측 특이 벡터를 얻습니다.
피처를 선도 특이 부분공간에 투사하고 이를 패치 토큰에 추가하여 이후 트랜스포머 층에 전달되는 SPC 토큰을 생성합니다.
SSVA를 사용하여 입력 신호에 조건을 부여해 특이 벡터를 선별적으로 혼합하고 축소된 기저로 집계합니다.
스케칭 프로젝션 행렬을 입력 의존적으로 만들고 필요시 파워 반복으로 정제하는 ID-RSVD를 도입합니다.
ViT 인코더 블록 사이에 SPC를 플러그인으로 삽입하고 사전 학습된 ViT 모델에서 엔드-투-엔드 미세 조정을 수행합니다.
다섯 개의 데이터셋(CUB-200-2011, FGVC-Aircraft, Stanford Cars, Food-101, CIFAR-100)에서 전체 미세 조정을 통해 평가합니다; 기본적으로 n=8 선두 구성요소와 n' = 4 SPC 토큰을 사용합니다.

Figure 1 : Visualization of the leading left singular vectors obtained by applying SVD to the patch feature matrix (number of patches $\times$ embedding dimension) at each ViT layer. Each left singular vector is reshaped to the patch grid and rendered as a heatmap. From left to right, we show the in

실험 결과

연구 질문

RQ1SVD에서 파생된 전경 표현이 ViT의 배경 노이즈와 아티팩트에 대한 강건성을 개선할 수 있습니까?
RQ2ViT 블록 사이에 SPC 토큰을 삽입하면 학습 불안정성을 야기하지 않고 전경 인식 중심의 집계를 향상시킬 수 있습니까?
RQ3SSVA와 ID-RSVD가 다양한 데이터셋과 층에서 일관된 이점을 제공합니까?
RQ4SVD-ViT가 미세-세부 및 일반 이미지 분류 작업에서 ViT 기준선에 비해 어떤 성능을 보입니까?

주요 결과

SVD-ViT는 다섯 데이터셋에서 ViT 기준선보다 일관되게 성능을 향상시킵니다.
CUB-200-2011에서 SPC 기반 방법은 ViT CLS=1보다 최대 2.52 포인트의 정확도 향상을 달성합니다.
FGVC-Aircraft에서 SPC만으로 최대 2.82 포인트의 개선이 발생합니다.
레이어 배치가 중요합니다: 더 깊은 층(예: Layer 11) 근처에 SPC를 삽입하면 더 큰 이득이 생기고, 최종 층 이후에 삽입하면 정확도가 감소할 수 있습니다.
SSVA와 ID-RSVD는 데이터셋과 층에 따라 이득이 다르고 작업 간 효과가 혼합됩니다.
정성적 시각화에서 선도 특이 벡터가 전경 구조와 일치하고 배경 아티팩트를 억제하는 것을 보여줍니다.

Figure 2 : Overview of RSVD. A low-rank approximation matrix is constructed via randomized sketching and iterative orthogonalization, and applying SVD to the resulting matrix enables extracting only the leading singular vectors.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.