[論文レビュー] Patch n' Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution
NaViT (Patch n' Pack) は、複数の画像を1つのシーケンスにパックすることで、ネイティブ解像度と任意のアスペクト比を処理できるようにし、訓練の効率を向上させ、解像度を跨いだ柔軟な推論を実現します。
The ubiquitous and demonstrably suboptimal choice of resizing images to a fixed resolution before processing them with computer vision models has not yet been successfully challenged. However, models such as the Vision Transformer (ViT) offer flexible sequence-based modeling, and hence varying input sequence lengths. We take advantage of this with NaViT (Native Resolution ViT) which uses sequence packing during training to process inputs of arbitrary resolutions and aspect ratios. Alongside flexible model usage, we demonstrate improved training efficiency for large-scale supervised and contrastive image-text pretraining. NaViT can be efficiently transferred to standard tasks such as image and video classification, object detection, and semantic segmentation and leads to improved results on robustness and fairness benchmarks. At inference time, the input resolution flexibility can be used to smoothly navigate the test-time cost-performance trade-off. We believe that NaViT marks a departure from the standard, CNN-designed, input and modelling pipeline used by most computer vision models, and represents a promising direction for ViTs.
研究の動機と目的
- CNNの固定解像度パイプラインからの脱却を促し、ViT がネイティブ解像度・アスペクト比を保持した入力を処理できるようにする。
- Patch n’ Pack を導入し、異なる画像からの複数のパッチを単一シーケンスにパックして効率的な訓練を実現する。
- コアの注意機構/MLP 操作を変更せず、パック、可変解像度、トークンドロップをサポートする建築および訓練の改良を開発する。
- NaViT が固定形状の ViT と比較してプリトレーニング効率、下流タスクへの転移、頑健性/公平性ベンチマークを改善することを示す。
提案手法
- Patch n’ Pack を導入する:ネイティブ解像度入力を可能にするために複数画像を単一シーケンスとしてパックする。
- クロスサンプルアテンションを防ぐマスキングと、パックされたシーケンス内で各サンプルの表現を生むマスク付きプーリングを使用する。
- 任意の解像度とアスペクト比をサポートするために、因子分解された(絶対および分数の)位置埋め込みを採用する。
- 訓練効率と性能を向上させるために連続的なトークンドロップと解像度サンプリングを有効にする。
- 監督付き分類(JFT-4B)と対照的な画像テキスト事前学習(WebLI)の両方に訓練を拡張する。
- パッキング設定での大きな Emax に対して固定バッチ列の考慮とチャンク化された対照的損失を適用して訓練をスケールさせる。
実験結果
リサーチクエスチョン
- RQ1ViT は正方形入力へリサイズせず、ネイティブ解像度・任意のアスペクト比の画像を学習できるのか?
- RQ2Patch n’ Pack は固定計算予算の範囲で、タスクとモダリティを跨いだ訓練効率と最終性能を改善するのか?
- RQ3解像度サンプリング、トークンドロップ、因子分解位置埋め込みは、未知の解像度とアスペクト比へ対する一般化にどう影響するのか?
- RQ4NaViT の表現は、ViT と比較してセグメンテーション、検出、映像分類などの下流タスクへ効果的に転移するのか?
- RQ5ネイティブアスペクト比入力は公平性・頑健性ベンチマークにどのような影響を与えるのか?
主な発見
| 指標 | ViT-L/14 | NaViT-L/14 |
|---|---|---|
| ImageNet zero-shot | 68.3% | 72.9% |
| LVIS AP | 23.3% | 28.3% |
| LVIS AP rare | 17.2% | 24.3% |
- NaViT は計算量を揃えたViTをスケール間で一貫して上回り、プリトレーニングで約4xの計算量を削減しつつ最良のViTに匹敵する性能を発揮する。
- 可変解像度とトークンドロップを用いた訓練により、NaViT-L/16 は同じ計算予算内でViTより最大で5倍多くの画像を処理できる。
- NaViT はアスペクト比を保持し、複数の解像度で評価をサポートするため、低コストな適応と推論時の費用対性能のトレードオフを促進する。
- 因子分解位置埋め込み(特に x- と y-埋め込みの加法的結合)は、未知の解像度やアスペクト比へ対して、 baseline の 2D 埋め込みより一般化性能が高い。
- NaViT は ViT ベースラインに対して、分布外での頑健性および公平性関連の信号注釈性能が改善される。
- セグメンテーションと物体検出へ転移させた場合、NaViT は LVIS AP(28.3% 対 23.3% の ViT-L/14)およびゼロショット ImageNet で改善を示し、ネイティブ解像度対応がより良い。映像分類では NaViT-L/16 が ViViT-L/ に匹敵しつつエポック数が少ない。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。