[論文レビュー] XCiT: Cross-Covariance Image Transformers
XCiTは特徴チャネル全体で動作するクロス共分散アテンション(XCA)を導入し、線形計算量で動作する。これにより、ImageNet、COCO、ADE20k、自己教師付き学習のベンチマークでベースラインと同等またはそれを上回るスケーラブルなビジョントランスフォーマーを実現する。
Following their success in natural language processing, transformers have recently shown much promise for computer vision. The self-attention operation underlying transformers yields global interactions between all tokens ,i.e. words or image patches, and enables flexible modelling of image data beyond the local interactions of convolutions. This flexibility, however, comes with a quadratic complexity in time and memory, hindering application to long sequences and high-resolution images. We propose a "transposed" version of self-attention that operates across feature channels rather than tokens, where the interactions are based on the cross-covariance matrix between keys and queries. The resulting cross-covariance attention (XCA) has linear complexity in the number of tokens, and allows efficient processing of high-resolution images. Our cross-covariance image transformer (XCiT) is built upon XCA. It combines the accuracy of conventional transformers with the scalability of convolutional architectures. We validate the effectiveness and generality of XCiT by reporting excellent results on multiple vision benchmarks, including image classification and self-supervised feature learning on ImageNet-1k, object detection and instance segmentation on COCO, and semantic segmentation on ADE20k.
研究の動機と目的
- 高解像度ビジョンタスクのための効率的でスケーラブルなトランスフォーマーを動機づける。
- 標準の自己注意をクロス共分散アテンションに置き換え、トークン数に対する計算量を2次から線形へ削減する。
- XCAを局所パッチ相互作用とフィードフォワードネットワークと組み合わせて、実用的なビジョントランスフォーマーを構築する。
- 画像分類、物体検出、セマンティックセグメンテーション、および自己教師付き学習におけるXCiTの性能を示す。
提案手法
- 特徴次元上で動作するクロス共分散アテンション(XCA)を定義する。
- トレーニングを安定化させるために行/列正規化と学習可能な温度パラメータを適用する。
- 複雑さを低減し最適化を容易にするためにブロック対角多頭構造を導入する。
- 列状エンコーダアーキテクチャにおいて、XCAをLocal Patch Interaction(LPI)と点ごとのフィードフォワードネットワークと統合する。
- 画像分類タスクでグローバル集約のためにクラスアテンションを使用する。
- パッチサイズ(8x8および16x16)と解像度を最大384x384まで実験し、畳み込み教師を用いたディスティレーションを含む。
実験結果
リサーチクエスチョン
- RQ1高解像度のビジョンタスクに対して、クロス共分散アテンションは二次の自己注意のスケーラブルな代替手段を提供できるのか。
- RQ2XCAは画像分類、検出、セグメンテーションのベンチマークで計算量とメモリコストを削減しつつ精度を維持できるのか。
- RQ3ViTと畳み込みバックボーンと比較した自己教師付き学習設定でのXCiTの性能はどうか。
- RQ4ブロック対角(グルーピング)アテンション構造は最適化と性能を改善するのか。
- RQ5訓練時および推論時に入力解像度が変化してもXCiTは頑健か。
主な発見
- XCiT-L24/16は224x224でImageNet-1kのトップ1精度86.0%、パラメータ189M、GFLOPs 417.9を達成。
- COCOでは、XCiTバックボーンは物体検出でAP 48.5%、インスタンスセグメンテーションでAP 43.7%を達成。
- ADE20kのセマンティックセグメンテーションでXCiTは48.4% mIoUに達し、同程度のサイズのSwin Transformerバックボーンを上回る。
- DINOを用いた自己教師付き学習では、XCiTはImageNet-1kでトップ1精度80.9%を達成。
- XCAはトークン数に対して線形計算量で動作し、高解像度画像の効率的な処理を可能にする。
- クラスアテンションの可視化は、ヘッドが意味的に整合した領域に焦点を合わせ、内容に適応していることを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。