[論文レビュー] CrossFormer: A Versatile Vision Transformer Based on Cross-scale Attention
CrossFormerは、クロススケールエンベディング層(CEL)およびロングショートディスタンスアテンション(LSDA)を用いてクロススケールアテンションを可能にするビジョントランスフォーマーのアーキテクチャを導入し、複数の空間スケールにわたる特徴の有効なモデリングを可能にした。小さなスケールと大きなスケールの両方の特徴を保持し、動的ポジションバイアスを組み込むことで、物体検出およびセグメンテーションタスクで最先端の性能を達成した。
Transformers have made much progress in dealing with visual tasks. However, existing vision transformers still do not possess an ability that is important to visual input: building the attention among features of different scales. The reasons for this problem are two-fold: (1) Input embeddings of each layer are equal-scale without cross-scale features; (2) Some vision transformers sacrifice the small-scale features of embeddings to lower the cost of the self-attention module. To make up this defect, we propose Cross-scale Embedding Layer (CEL) and Long Short Distance Attention (LSDA). In particular, CEL blends each embedding with multiple patches of different scales, providing the model with cross-scale embeddings. LSDA splits the self-attention module into a short-distance and long-distance one, also lowering the cost but keeping both small-scale and large-scale features in embeddings. Through these two designs, we achieve cross-scale attention. Besides, we propose dynamic position bias for vision transformers to make the popular relative position bias apply to variable-sized images. Based on these proposed modules, we construct our vision architecture called CrossFormer. Experiments show that CrossFormer outperforms other transformers on several representative visual tasks, especially object detection and segmentation. The code has been released: this https URL.
研究の動機と目的
- 既存のビジョントランスフォーマーが各レイヤーで1つのスケールの特徴しか処理しないという点で、クロススケール特徴モデリングの欠如に対処すること。
- 計算コストの増加を伴わずに、自己アテンション機構内で小さなスケールと大きなスケールの両方の特徴を保持すること。
- 可変サイズの入力画像に対応するため、相対的位置バイアスを動的ポジションバイアスによって一般化可能にする方法を確立すること。
- マルチスケール表現を効果的に統合できる統合型ビジョントランスフォーマーのアーキテクチャを設計し、視覚的理解を向上させること。
提案手法
- クロススケールエンベディング層(CEL)は、複数のパッチスケールからの特徴を1つのエンベディングに統合し、クロススケール表現学習を可能にする。
- ロングショートディスタンスアテンション(LSDA)は、自己アテンションを短距離および長距離成分に分解することで、スケールをまたがる特徴の忠実度を維持しながら計算コストを削減する。
- 動的ポジションバイアスが導入され、相対的位置バイアスが可変サイズの入力に適応可能となり、ビジョントランスフォーマーにおける一般化性が向上する。
- CELとLSDAが統合された統合型トランスフォーマーバックボーンが設計され、CrossFormerが形成され、視覚タスクに最適化されている。
- 標準的な視覚ベンチマークと標準的なトレーニングプロトコルに従い、エンドツーエンドでモデルがトレーニングされた。
実験結果
リサーチクエスチョン
- RQ1ビジョントランスフォーマーは、どのようにして異なる空間スケールの特徴に効果的にアテンションを向けることができるか?
- RQ2自己アテンションにおいて、計算複雑性を増加させずにマルチスケール特徴表現を保持できるか?
- RQ3ビジョントランスフォーマーにおいて、可変サイズの画像入力に対応するため、相対的位置バイアスをどのように適応できるか?
- RQ4クロススケールアテンションは、物体検出およびセグメンテーションタスクのパフォーマンスにどの程度向上効果をもたらすか?
主な発見
- CrossFormerは、物体検出およびインスタンスセグメンテーションのベンチマークで最先端のパフォーマンスを達成し、既存のビジョントランスフォーマーを上回った。
- CELおよびLSDAによるクロススケールアテンションの統合は、特に細分化された視覚タスクにおいて顕著な精度向上をもたらした。
- 動的ポジションバイアスにより、可変サイズの入力サイズにわたる効果的な一般化が可能となり、実世界のシナリオにおけるロバスト性が向上した。
- 計算効率を維持しながら、複数のスケールにわたる特徴表現が向上したことが、多様な視覚タスクにおける一貫した性能向上によって裏付けられた。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。