[論文レビュー] CounTR: Transformer-based Generalised Visual Counting
CounTR は、 exemplar-guided attention と self-supervised pre-training を用いた、オープンワールドのゼロショットからファウショットまでの視覚カウントのための transformer ベースのアーキテクチャを提案し、FSC-147 で最先端の結果を達成します。
In this paper, we consider the problem of generalised visual object counting, with the goal of developing a computational model for counting the number of objects from arbitrary semantic categories, using arbitrary number of "exemplars", i.e. zero-shot or few-shot counting. To this end, we make the following four contributions: (1) We introduce a novel transformer-based architecture for generalised visual object counting, termed as Counting Transformer (CounTR), which explicitly capture the similarity between image patches or with given "exemplars" with the attention mechanism;(2) We adopt a two-stage training regime, that first pre-trains the model with self-supervised learning, and followed by supervised fine-tuning;(3) We propose a simple, scalable pipeline for synthesizing training images with a large number of instances or that from different semantic categories, explicitly forcing the model to make use of the given "exemplars";(4) We conduct thorough ablation studies on the large-scale counting benchmark, e.g. FSC-147, and demonstrate state-of-the-art performance on both zero and few-shot settings.
研究の動機と目的
- 任意の意味カテゴリと可変数の exemplars(ゼロショットからファウショットまで)をサポートするオープンワールドな視覚オブジェクトカウントの動機づけ。
- 自己注意を利用して画像領域と exemplars を比較する transformer ベースのCounting TRansformer(CounTR)を開発。
- MAE ベースの自己監視プリトレーニングを経た二段階のトレーニング regime を提案。
- 長尾分布を緩和し exemplars 条件付けを改善するスケーラブルなモザイクデータ合成パイプラインを導入。
- ゼロショットおよびファウショット設定の下で FSC-147 における最先端の性能を示す。
提案手法
- 画像 ViT エンコーダが特徴トークンを出力し、 exemplar 特徴を別個にエンコードして特徴相互作用モジュール(FIM)でクロスアテンションを行う transformer ベースの CounTR アーキテクチャを提案。
- FIM はデコーダースタイルのトランスフォーマー層を用いて画像パッチと exemplar 表現の間のクロス・および自己アテンションを可能にし、密度マップを生成。
- FIM 出力を段階的にアップサンプルして 2D 密度マップを得るデコーダを用い、最終カウントはこの密度マップの総和。
- 二段階のトレーニング:最初は MAE を用いた画像再構成による ViT エンコーダの自己監視プリトレーニング、次にカウントのための監視付きファインチューニング。
- 多数のインスタンスと多様な背景を持つ画像を作成するスケーラブルなモザイクデータ生成パイプライン( collage および blending )を導入し、長尾分布に対応。
- 推論時の正規化とクロップ戦略を用いて予測をキャリブレーションし、 tiny object や exemplar の配置を考慮。
実験結果
リサーチクエスチョン
- RQ1ゼロショットまたはファウショットが与えられた場合、 transformer ベースのモデルは任意の物体クラスのカウントを一般化できるか。
- RQ2自己監視プリトレーニングはゼロショットおよびファウショット設定のカウント性能を向上させるか。
- RQ3訓練データのモザイク合成は長尾分布を緩和し、インスタンス数が多い画像でのカウントを改善するか。
- RQ4推論時の正規化戦略は exemplar-guided counting の密度出力をキャリブレーションするのに有効か。
主な発見
| Methods | Year | Backbone | ショット数 | Val MAE | Val RMSE | Test MAE | Test RMSE |
|---|---|---|---|---|---|---|---|
| RepRPN-C | 2022 | ConvNets | 0 | 31.69 | 100.31 | 28.32 | 128.76 |
| RCC | 2022 | Pre-trained ViT | 0 | 20.39 | 64.62 | 21.64 | 103.47 |
| CounTR (ours) | 2022 | ViT | 0 | 18.07 | 71.84 | 14.71 | 106.87 |
| FR | 2019 | ConvNets | 3 | 45.45 | 112.53 | 41.64 | 141.04 |
| FSOD | 2020 | ConvNets | 3 | 36.36 | 115.00 | 32.53 | 140.65 |
| P-GMN | 2018 | ConvNets | 3 | 60.56 | 137.78 | 62.69 | 159.67 |
| GMN | 2018 | ConvNets | 3 | 29.66 | 89.81 | 26.52 | 124.57 |
| MAML | 2017 | ConvNets | 3 | 25.54 | 79.44 | 24.90 | 112.68 |
| FamNet | 2021 | ConvNets | 3 | 23.75 | 69.07 | 22.08 | 99.54 |
| BMNet+ | 2022 | ConvNets | 3 | 15.74 | 58.53 | 14.62 | 91.83 |
- CounTR は FSC-147 におけるゼロショットおよびファウショット設定で最先端の MAE/RMSE を達成(例:ゼロショット MAE 18.07、Val での RMSE 71.84、Test での MAE 14.71、RMSE 106.87)。
- 自己監督 MAE プリトレーニングは、監視付きファインチューニングのみよりも性能を大幅に改善。
- モザイクデータ合成は、特に多数のインスタンスを含む画像で結果をさらに改善。
- 推論時の正規化とクロップは、特にファウショット設定でカウント精度を高める。
- 3 exemplars を用いた CounTR は頑健であり、1、2、3ショット間の差は小さい。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。