QUICK REVIEW

[論文レビュー] Adapting Vision Transformers to Ultra-High Resolution Semantic Segmentation with Relay Tokens

Yohann Perron, Vladyslav Sydorov|arXiv (Cornell University)|Jan 9, 2026

Advanced Neural Network Applications被引用数 0

ひとこと要約

この論文は、ViTベースのバックボーンにリレートークンを導入し、超高解像度のセマンティックセグメンテーションにおける明示的なマルチスケール推論を可能にする。パラメータ負荷を最小化しつつ相対的なIoUを最大15%改善。

ABSTRACT

Current approaches for segmenting ultra high resolution images either slide a window, thereby discarding global context, or downsample and lose fine detail. We propose a simple yet effective method that brings explicit multi scale reasoning to vision transformers, simultaneously preserving local details and global awareness. Concretely, we process each image in parallel at a local scale (high resolution, small crops) and a global scale (low resolution, large crops), and aggregate and propagate features between the two branches with a small set of learnable relay tokens. The design plugs directly into standard transformer backbones (eg ViT and Swin) and adds fewer than 2 % parameters. Extensive experiments on three ultra high resolution segmentation benchmarks, Archaeoscape, URUR, and Gleason, and on the conventional Cityscapes dataset show consistent gains, with up to 15 % relative mIoU improvement. Code and pretrained models are available at https://archaeoscape.ai/work/relay-tokens/ .

研究の動機と目的

超高解像度画像をセグメント化する課題に対し、局所的な細部とグローバルな文脈の双方を保持する。
ViTバックボーンに最小限のパラメータを追加する軽量なプラグアンドプレイ機構を提案する。
高解像度の局所ブランチと低解像度のグローバルブランチ間の明示的な横断スケール通信を可能にする。
事前学習済みウェイトを維持しつつ、多様なUHRベンチマークで改善を実証する。

提案手法

各画像をローカル高解像度ウィンドウとグローバル低解像度ウィンドウで並行処理する。
スケールを跨いで共有されるRリレートークンを導入し、各トランスフォーマーブロックで更新して横断解像度情報の交換を可能にする。
ローカルおよびグローバルの両ブランチに簡易なセグメンテーションヘッドを付与し、スケール固有の損失で監視する。
局所予測にはローカル損失、切り出し/グローバル予測にはグローバル損失、さらに横断解像度の整合性損失を用いる。
トランスフォーマーブロックを共有し、ローカル/グローバル経路に対する小さな射影差分のみを追加してバックボーンのウェイトを保持する。

実験結果

リサーチクエスチョン

RQ1リレータークトークンはバックボーン設計を再構成せずに効果的な横断解像度通信を実現できるか。
RQ2局所＋グローバルのデュアルスケール処理とリレータークトークンは超高解像データセットでセグメンテーション性能を改善するか。
RQ3リレータークトークン手法はフル高解像度処理やスライディングウィンドウベースと比較してメモリ効率はどうか。
RQ4航空写真・衛星・組織病理・都市風景など多様なドメインと標準ベンチマークで手法は頑健か。

主な発見

Backbone	Scaling strategy	Archaeoscape	URUR	Gleason	Cityscapes (val)
ViT	SW: 256	46.5	36.3	33.2	53.0
SwinV2	SW: 256	51.9	41.0	48.1	68.2
SwinV2	MS: 256+1024↓4 (relay)	57.8	46.4	55.5	75.1
Flatten Swin	SW: 256	53.4	43.0	50.7	70.2
Flatten Swin	MS: 256+1024↓4 (relay)	55.2	45.8	57.7	77.5
GLAM	SW: 256	52.5	43.9	47.7	72.9
GLAM	MS: 256+1024↓4 (relay)	53.8	44.5	54.1	76.9
xT	SW: 1024	40.6	44.0	46.0	68.6
Vision Mamba	SW: 1024	45.9	31.6	22.1	44.8

リレータークトークンは評価対象のバックボーンとデータセット全体で平均IoUを一貫して向上させる。
SwinV2ではリレータークトークンを用いたデュアルスケール推論により、Archaeoscapeで最大5.9ポイント、URURで5.4ポイント、Gleasonで7.4ポイント、Cityscapes（相対利益は表に示す）で6.9ポイントの改善を達成。
バックボーンを跨いでも、リレータークトークンはフル高解像度処理と比較してピークメモリを抑えつつ精度向上を提供する。
観察された具体的改善例：SwinV2 with relays (MS): 57.8, 46.4, 55.5, 75.1; Flatten Swin with relays (MS): 55.2, 45.8, 57.7, 77.5; GLAM with relays (MS): 53.8, 44.5, 54.1, 76.9.
この手法はパラメータを2%未満追加し、実行時オーバーヘッドはごく僅かである。
Cityscapesでの結果は従来のビジョンベンチマークにおいても利得を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。