QUICK REVIEW

[論文レビュー] What DINO saw: ALiBi positional encoding reduces positional bias in Vision Transformers

Moritz Pawlowsky, Antonis Vamvakeros|arXiv (Cornell University)|Mar 17, 2026

Advanced Electron Microscopy Techniques and Applications被引用数 0

ひとこと要約

要約: 本論文は DINOv2 に類似した ViT が特徴全体にわたって強い位置偏りを示すことを実証し、ALiBi ベースのファインチューニング(ALiBi-Dv2)を導入して、意味を保持しつつ偏りを減らしセグメンテーションや弱教師ありタスクを改善する均質な特徴を生み出す。

ABSTRACT

Vision transformers (ViTs) - especially feature foundation models like DINOv2 - learn rich representations useful for many downstream tasks. However, architectural choices (such as positional encoding) can lead to these models displaying positional biases and artefacts independent of semantic content. This makes zero-shot adaption difficult in fields like material science, where images are often cross-sections of homogeneous microstructure (i.e. having no preferred direction). In this work, we investigate the positional bias in ViTs via linear probing, finding it present across a range of objectives and positional encodings, and subsequently reduce it by finetuning models to use ALiBi relative positional encoding. We demonstrate that these models retain desirable general semantics and their unbiased features can be used successfully in trainable segmentation of complex microscopy images.

研究の動機と目的

自己教師ありモデル全体で ViT 特徴の位置バイアスを特定・定量化する。
ALiBi ベースのファインチューニングが意味内容を保持しつつ位置バイアスを除去できることを実証する。
ALiBi-Dv2 がVOC, ADE20K などのベンチマークでセグメンテーション性能を維持または向上させることを示す。
材料顕微鏡画像における学習可能なセグメンテーションのための均質な特徴の利点を示す。

提案手法

ViT特徴を2Dランプ関数へ写像する線形プローブを実施し、チャネルごとの位置偏りを定量化する。
円筒境界と長さ一般化のための正規化を用いた2D対応 ALiBi 位置エンコーディングで DINOv2 チェックポイントをファインチューニングし、トレーニング targets として元の埋め込みを凍結する。
ALiBi-Dv2 を NoPE や他のベースラインと比較し、VOC07, VOC12, ADE20K のセマンティックセグメンテーションおよび顕微鏡画像の学習可能なセグメンテーションに対して評価する。
PCA 可視化、コサイン類似度、k-means 分解を複数データセットで用いて特徴の均質性を評価する。
ALiBi-Dv2 の特徴を弱教師ありタスク（k-means クラスタリング）および学習可能セグメンテーションへ適用し、実用的影響を評価する。

Figure 2: Linear probe analysis of DINOv2-S features. (a) We train linear probes to map from image features (or individual channels) to randomly sampled (red squares) ramp functions, reporting $R^{2}$ scores on holdout regions. Per-channel scores and predictions (which use all channels) are both ave

実験結果

リサーチクエスチョン

RQ1ViT特徴には、異なるアーキテクチャと自己教師あり目的の下で線形で解読しやすい位置バイアスが含まれるか。
RQ2ALiBi 位置エンコーディングは意味内容を損なうことなく均質な特徴を生成できるか。
RQ3ALiBi 強化特徴は標準ベンチマークでのセグメンテーション性能を維持または向上させ、材料画像の弱教師ありセグメンテーションを改善するか。

主な発見

ViT特徴には位置バイアスが広く存在し、多くの層・モデル（DINOv2, DINOv3 を含む）で線形スロープとして現れるが、教師ありモデルでは低減する。
ALiBi-Dv2 はチャネルおよび層ごとの位置バイアスを著しく低減しつつ意味的構造を保持し、より均質な特徴空間をもたらす。
ALiBi-Dv2 は凍結特徴と線形プローブを用いた場合、VOC07, VOC12, ADE20K で DINOv2 および NoPE と比較して同等かそれ以上の平均 IoU を達成する。
Qualitative な特徴可視化（PCA）は ALiBi-Dv2 がオブジェクトの分解を維持しつつ、位置勾配を減らして微細構造画像の均質性を改善することを示す。
ALiBi-Dv2 は難度の高い材料顕微鏡画像の学習可能セグメンテーションの品質を改善し、ポジション依存のセグメンテーション（例: 気孔後退効果）を低減する。

Figure 3: Per-channel per-layer ‘positional fingerprint’ of $R^{2}$ scores for DINOv2, DINOv3 and ALiBi-Dv2 for a left-right target ramp. DINOv2 begins with positional information spread across channels (its learned PE is added at the start of the network), which later decreases, whereas for DINOv3

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。