Skip to main content
QUICK REVIEW

[論文レビュー] Adapting Vision Transformers to Ultra-High Resolution Semantic Segmentation with Relay Tokens

Yohann Perron, Vladyslav Sydorov|arXiv (Cornell University)|Jan 9, 2026
Advanced Neural Network Applications被引用数 0
ひとこと要約

この論文は、ViTベースのバックボーンにリレートークンを導入し、超高解像度のセマンティックセグメンテーションにおける明示的なマルチスケール推論を可能にする。パラメータ負荷を最小化しつつ相対的なIoUを最大15%改善。

ABSTRACT

Current approaches for segmenting ultra high resolution images either slide a window, thereby discarding global context, or downsample and lose fine detail. We propose a simple yet effective method that brings explicit multi scale reasoning to vision transformers, simultaneously preserving local details and global awareness. Concretely, we process each image in parallel at a local scale (high resolution, small crops) and a global scale (low resolution, large crops), and aggregate and propagate features between the two branches with a small set of learnable relay tokens. The design plugs directly into standard transformer backbones (eg ViT and Swin) and adds fewer than 2 % parameters. Extensive experiments on three ultra high resolution segmentation benchmarks, Archaeoscape, URUR, and Gleason, and on the conventional Cityscapes dataset show consistent gains, with up to 15 % relative mIoU improvement. Code and pretrained models are available at https://archaeoscape.ai/work/relay-tokens/ .

研究の動機と目的

  • 超高解像度画像をセグメント化する課題に対し、局所的な細部とグローバルな文脈の双方を保持する。
  • ViTバックボーンに最小限のパラメータを追加する軽量なプラグアンドプレイ機構を提案する。
  • 高解像度の局所ブランチと低解像度のグローバルブランチ間の明示的な横断スケール通信を可能にする。
  • 事前学習済みウェイトを維持しつつ、多様なUHRベンチマークで改善を実証する。

提案手法

  • 各画像をローカル高解像度ウィンドウとグローバル低解像度ウィンドウで並行処理する。
  • スケールを跨いで共有されるRリレートークンを導入し、各トランスフォーマーブロックで更新して横断解像度情報の交換を可能にする。
  • ローカルおよびグローバルの両ブランチに簡易なセグメンテーションヘッドを付与し、スケール固有の損失で監視する。
  • 局所予測にはローカル損失、切り出し/グローバル予測にはグローバル損失、さらに横断解像度の整合性損失を用いる。
  • トランスフォーマーブロックを共有し、ローカル/グローバル経路に対する小さな射影差分のみを追加してバックボーンのウェイトを保持する。
(a) Archaeoscape
(a) Archaeoscape

実験結果

リサーチクエスチョン

  • RQ1リレータークトークンはバックボーン設計を再構成せずに効果的な横断解像度通信を実現できるか。
  • RQ2局所+グローバルのデュアルスケール処理とリレータークトークンは超高解像データセットでセグメンテーション性能を改善するか。
  • RQ3リレータークトークン手法はフル高解像度処理やスライディングウィンドウベースと比較してメモリ効率はどうか。
  • RQ4航空写真・衛星・組織病理・都市風景など多様なドメインと標準ベンチマークで手法は頑健か。

主な発見

BackboneScaling strategyArchaeoscapeURURGleasonCityscapes (val)
ViTSW: 25646.536.333.253.0
SwinV2SW: 25651.941.048.168.2
SwinV2MS: 256+1024↓4 (relay)57.846.455.575.1
Flatten SwinSW: 25653.443.050.770.2
Flatten SwinMS: 256+1024↓4 (relay)55.245.857.777.5
GLAMSW: 25652.543.947.772.9
GLAMMS: 256+1024↓4 (relay)53.844.554.176.9
xTSW: 102440.644.046.068.6
Vision MambaSW: 102445.931.622.144.8
  • リレータークトークンは評価対象のバックボーンとデータセット全体で平均IoUを一貫して向上させる。
  • SwinV2ではリレータークトークンを用いたデュアルスケール推論により、Archaeoscapeで最大5.9ポイント、URURで5.4ポイント、Gleasonで7.4ポイント、Cityscapes(相対利益は表に示す)で6.9ポイントの改善を達成。
  • バックボーンを跨いでも、リレータークトークンはフル高解像度処理と比較してピークメモリを抑えつつ精度向上を提供する。
  • 観察された具体的改善例:SwinV2 with relays (MS): 57.8, 46.4, 55.5, 75.1; Flatten Swin with relays (MS): 55.2, 45.8, 57.7, 77.5; GLAM with relays (MS): 53.8, 44.5, 54.1, 76.9.
  • この手法はパラメータを2%未満追加し、実行時オーバーヘッドはごく僅かである。
  • Cityscapesでの結果は従来のビジョンベンチマークにおいても利得を示す。
(b) URUR
(b) URUR

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。