[論文レビュー] Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions
この論文は Pyramid Vision Transformer (PVT) を紹介する。畳み込みを使わない Transformer バックボーンに、マルチスケール特徴ピラミッドと空間縮小型注意機構を組み込み、高解像度の密な予測を可能にし、検出、セグメンテーション、分類タスク全般で競争力の性能を発揮する。
Although using convolutional neural networks (CNNs) as backbones achieves great successes in computer vision, this work investigates a simple backbone network useful for many dense prediction tasks without convolutions. Unlike the recently-proposed Transformer model (e.g., ViT) that is specially designed for image classification, we propose Pyramid Vision Transformer~(PVT), which overcomes the difficulties of porting Transformer to various dense prediction tasks. PVT has several merits compared to prior arts. (1) Different from ViT that typically has low-resolution outputs and high computational and memory cost, PVT can be not only trained on dense partitions of the image to achieve high output resolution, which is important for dense predictions but also using a progressive shrinking pyramid to reduce computations of large feature maps. (2) PVT inherits the advantages from both CNN and Transformer, making it a unified backbone in various vision tasks without convolutions by simply replacing CNN backbones. (3) We validate PVT by conducting extensive experiments, showing that it boosts the performance of many downstream tasks, e.g., object detection, semantic, and instance segmentation. For example, with a comparable number of parameters, RetinaNet+PVT achieves 40.4 AP on the COCO dataset, surpassing RetinNet+ResNet50 (36.3 AP) by 4.1 absolute AP. We hope PVT could serve as an alternative and useful backbone for pixel-level predictions and facilitate future researches. Code is available at https://github.com/whai362/PVT.
研究の動機と目的
- 密な予測タスク(検出、セグメンテーション)に適した畳み込みなしの純粋な Transformer バックボーンを開発する。
- マルチスケールの高解像度表現を提供するピラミッドベースの特徴階層を導入する。
- 空間縮小注意機構(SRA)により高解像度の注意計算とメモリコストを低減する。
- PVT の有効性をオブジェクト検出、インスタンス/セマンティック分割、画像分類のドロップインバックボーンとして実証する。
提案手法
- 入力を細粒度パッチ(4x4)として表現し、マルチスケール特徴マップ(F1..F4)を生成する四段階のピラミッドを作成する。
- 各段階でパッチ埋め込みを用い、特徴マップの解像度を順次縮小する(4x、8x、16x、32xのストライド)。
- 標準のマルチヘッド注意を空間縮小注意(SRA)に置き換え、注意前に K と V を縮小して計算量とメモリを削減する。
- 各段階で Transformer エンコーダを共有し、L_i、E_i、N_i、R_i の構成を設定して精度と効率のバランスをとる。
- PVT を DETR と統合して畳み込みなしのエンドツーエンドパイプラインを実現し、物体検出には DETR、分割/検出タスクには標準ヘッドを適用して適用性を示す。
![(a) CNNs: VGG [ 54 ] , ResNet [ 22 ] , etc .](https://ar5iv.labs.arxiv.org/html/2102.12122/assets/x1.png)
実験結果
リサーチクエスチョン
- RQ1マルチスケール構造を持つ純粋な Transformer バックボーンは、密な予測タスクの CNN バックボーンの代替となり得るか。
- RQ2高解像度の特徴マップを効率的に処理するように注意機構を再設計できるか。
- RQ3ピラミッド型 Transformer を用いる場合の精度と効率のトレードオフは、密な予測ベンチマークにおいて CNN や ViT と比較してどうなるか。
主な発見
- PVT のバリアントは、同等のパラメータ数で COCO オブジェクト検出の RetinaNet において CNN バックボーンと比較して高い AP を示す(例: PVT-Small 40.4 AP vs ResNet50 36.3 AP)。
- PVT-Large は COCO で 30% 少ないパラメータで 42.6 AP を達成。
- インスタンス分割では、PVT-Tiny/Small/Medium が COCO の APm で ResNet-18/50/101 を上回る(FLOPs が同等)。
- ADE20K でのセマンティック分割では、CNN バックボーンより高い mIoU を示し、PVT-Large は 42.1 mIoU に到達、マルチスケール検証で 44.8 の値を達成。
- 純粋な Transformer DETR パイプライン(PVT+DETR)により COCO val2017 で 34.7 AP を達成し、ResNet50 ベースの DETR を上回る。
- ImageNet 分類全体では、PVT モデルは ViT/DeiT および従来の CNN と競合するが、利得は密な予測タスクで特に顕著。
![(b) Vision Transformer [ 13 ]](https://ar5iv.labs.arxiv.org/html/2102.12122/assets/x2.png)
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。