QUICK REVIEW

[논문 리뷰] What DINO saw: ALiBi positional encoding reduces positional bias in Vision Transformers

Moritz Pawlowsky, Antonis Vamvakeros|arXiv (Cornell University)|2026. 03. 17.

Advanced Electron Microscopy Techniques and Applications인용 수 0

한 줄 요약

본 논문은 DINOv2 유사 ViT가 특징 전반에 걸친 강한 위치 편향을 보인다는 것을 보이고, ALiBi 기반 미세조정(ALiBi-Dv2)을 도입하여 의미를 보존하면서 편향을 줄이고 분할 및 약지도 학습 작업을 개선하는 균질한 특징을 생성한다.

ABSTRACT

Vision transformers (ViTs) - especially feature foundation models like DINOv2 - learn rich representations useful for many downstream tasks. However, architectural choices (such as positional encoding) can lead to these models displaying positional biases and artefacts independent of semantic content. This makes zero-shot adaption difficult in fields like material science, where images are often cross-sections of homogeneous microstructure (i.e. having no preferred direction). In this work, we investigate the positional bias in ViTs via linear probing, finding it present across a range of objectives and positional encodings, and subsequently reduce it by finetuning models to use ALiBi relative positional encoding. We demonstrate that these models retain desirable general semantics and their unbiased features can be used successfully in trainable segmentation of complex microscopy images.

연구 동기 및 목표

셀프-감독 학습(self-supervised) 모델 전반에서 ViT 특징의 위치 편향을 식별하고 정량화한다.
ALiBi 기반 미세조정이 의미 콘텐츠를 보존하면서 위치 편향을 제거할 수 있음을 보여준다.
ALiBi-Dv2가 VOC, ADE20K 같은 벤치마크에서 세분화(per segmentation) 성능을 유지하거나 개선한다.
재료 현미경 이미지에서 학습 가능한 분할에 대한 균질한 특징의 이점을 보여준다.

제안 방법

ViT 특징을 2D 램프 함수로 매핑하고 채널별 위치 편향을 정량화하기 위해 선형 탐침(linear probes)을 수행한다.
원래 임베딩을 학습 타깃으로 고정하고, 원통 경계 및 길이 일반화를 위한 정규화를 사용한 2D 인식 ALiBi 위치 인코딩으로 DINOv2 체크포인트를 미세조정한다.
의의 있는 분할 벤치마크(VOC07, VOC12, ADE20K) 및 현미경 이미지의 학습 가능한 분할에서 ALiBi-Dv2를 NoPE 및 다른 기준선과 비교한다.
여러 데이터세트에 걸쳐 PCA 시각화, 코사인 유사도 및 k-평균 분해를 통해 특징 균질성을 평가한다.
약지도 작업( k-means 클러스터링 ) 및 학습 가능한 분할에 ALiBi-Dv2 특징을 적용하여 실제 영향을 평가한다.

Figure 2: Linear probe analysis of DINOv2-S features. (a) We train linear probes to map from image features (or individual channels) to randomly sampled (red squares) ramp functions, reporting $R^{2}$ scores on holdout regions. Per-channel scores and predictions (which use all channels) are both ave

실험 결과

연구 질문

RQ1 ViT 특징이 서로 다른 아키텍처 및 셀프-감독 목표에서 선형적이며 쉽게 해독 가능한 위치 편향을 포함하는가?
RQ2 ALiBi 위치 인코딩이 의미 콘텐츠를 희생하지 않고 균질한 특징을 생성할 수 있는가?
RQ3 ALiBi-향상 특징이 표준 벤치마크의 분할 성능을 유지하거나 개선하고 재료 이미징에서 약지도 분할을 개선하는가?

주요 결과

위치 편향은 ViT 특징에서 널리 퍼져 있으며, 많은 채널에서 계층과 모델에 걸친 선형 램프처럼 나타나지만 감독 학습 모델에서는 감소한다.
ALiBi-Dv2는 채널별 및 계층별 위치 편향을 현저히 감소시키면서 의미 구조를 보존하여 더 균질한 특징 공간을 생성한다.
ALiBi-Dv2는 고정된 특징에 대해 선형 프로브를 사용할 때 VOC07, VOC12, ADE20K에서 DINOv2 및 NoPE에 비해 평균 IoU가 동등하거나 개선된다.
Qualitative 특징 시각화(PCA)는 ALiBi-Dv2가 객체 분해를 유지하되 위치 기울기가 더 적어 미세구조 이미지의 균질성을 개선한다.
ALiBi-Dv2는 요건이 까다로운 재료 현미경 이미지에서 위치 편향된 분할을 줄여 학습 가능한 분할의 품질을 향상시킨다.

Figure 3: Per-channel per-layer ‘positional fingerprint’ of $R^{2}$ scores for DINOv2, DINOv3 and ALiBi-Dv2 for a left-right target ramp. DINOv2 begins with positional information spread across channels (its learned PE is added at the start of the network), which later decreases, whereas for DINOv3

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.