[論文レビュー] Adapting Vision Transformers to Ultra-High Resolution Semantic Segmentation with Relay Tokens
この論文は、ViTベースのバックボーンにリレートークンを導入し、超高解像度のセマンティックセグメンテーションにおける明示的なマルチスケール推論を可能にする。パラメータ負荷を最小化しつつ相対的なIoUを最大15%改善。
Current approaches for segmenting ultra high resolution images either slide a window, thereby discarding global context, or downsample and lose fine detail. We propose a simple yet effective method that brings explicit multi scale reasoning to vision transformers, simultaneously preserving local details and global awareness. Concretely, we process each image in parallel at a local scale (high resolution, small crops) and a global scale (low resolution, large crops), and aggregate and propagate features between the two branches with a small set of learnable relay tokens. The design plugs directly into standard transformer backbones (eg ViT and Swin) and adds fewer than 2 % parameters. Extensive experiments on three ultra high resolution segmentation benchmarks, Archaeoscape, URUR, and Gleason, and on the conventional Cityscapes dataset show consistent gains, with up to 15 % relative mIoU improvement. Code and pretrained models are available at https://archaeoscape.ai/work/relay-tokens/ .
研究の動機と目的
- 超高解像度画像をセグメント化する課題に対し、局所的な細部とグローバルな文脈の双方を保持する。
- ViTバックボーンに最小限のパラメータを追加する軽量なプラグアンドプレイ機構を提案する。
- 高解像度の局所ブランチと低解像度のグローバルブランチ間の明示的な横断スケール通信を可能にする。
- 事前学習済みウェイトを維持しつつ、多様なUHRベンチマークで改善を実証する。
提案手法
- 各画像をローカル高解像度ウィンドウとグローバル低解像度ウィンドウで並行処理する。
- スケールを跨いで共有されるRリレートークンを導入し、各トランスフォーマーブロックで更新して横断解像度情報の交換を可能にする。
- ローカルおよびグローバルの両ブランチに簡易なセグメンテーションヘッドを付与し、スケール固有の損失で監視する。
- 局所予測にはローカル損失、切り出し/グローバル予測にはグローバル損失、さらに横断解像度の整合性損失を用いる。
- トランスフォーマーブロックを共有し、ローカル/グローバル経路に対する小さな射影差分のみを追加してバックボーンのウェイトを保持する。

実験結果
リサーチクエスチョン
- RQ1リレータークトークンはバックボーン設計を再構成せずに効果的な横断解像度通信を実現できるか。
- RQ2局所+グローバルのデュアルスケール処理とリレータークトークンは超高解像データセットでセグメンテーション性能を改善するか。
- RQ3リレータークトークン手法はフル高解像度処理やスライディングウィンドウベースと比較してメモリ効率はどうか。
- RQ4航空写真・衛星・組織病理・都市風景など多様なドメインと標準ベンチマークで手法は頑健か。
主な発見
| Backbone | Scaling strategy | Archaeoscape | URUR | Gleason | Cityscapes (val) |
|---|---|---|---|---|---|
| ViT | SW: 256 | 46.5 | 36.3 | 33.2 | 53.0 |
| SwinV2 | SW: 256 | 51.9 | 41.0 | 48.1 | 68.2 |
| SwinV2 | MS: 256+1024↓4 (relay) | 57.8 | 46.4 | 55.5 | 75.1 |
| Flatten Swin | SW: 256 | 53.4 | 43.0 | 50.7 | 70.2 |
| Flatten Swin | MS: 256+1024↓4 (relay) | 55.2 | 45.8 | 57.7 | 77.5 |
| GLAM | SW: 256 | 52.5 | 43.9 | 47.7 | 72.9 |
| GLAM | MS: 256+1024↓4 (relay) | 53.8 | 44.5 | 54.1 | 76.9 |
| xT | SW: 1024 | 40.6 | 44.0 | 46.0 | 68.6 |
| Vision Mamba | SW: 1024 | 45.9 | 31.6 | 22.1 | 44.8 |
- リレータークトークンは評価対象のバックボーンとデータセット全体で平均IoUを一貫して向上させる。
- SwinV2ではリレータークトークンを用いたデュアルスケール推論により、Archaeoscapeで最大5.9ポイント、URURで5.4ポイント、Gleasonで7.4ポイント、Cityscapes(相対利益は表に示す)で6.9ポイントの改善を達成。
- バックボーンを跨いでも、リレータークトークンはフル高解像度処理と比較してピークメモリを抑えつつ精度向上を提供する。
- 観察された具体的改善例:SwinV2 with relays (MS): 57.8, 46.4, 55.5, 75.1; Flatten Swin with relays (MS): 55.2, 45.8, 57.7, 77.5; GLAM with relays (MS): 53.8, 44.5, 54.1, 76.9.
- この手法はパラメータを2%未満追加し、実行時オーバーヘッドはごく僅かである。
- Cityscapesでの結果は従来のビジョンベンチマークにおいても利得を示す。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。