[論文レビュー] CCTrans: Simplifying and Improving Crowd Counting with Transformer
CCTrans は pyramid vision transformer バックボーンと pyramid feature aggregation、軽量な多段スケール拡張回帰ヘッドを用いて、完全教師あり・弱教師あり設定の両方で最先端の crowd counting を達成します。NWPU-Crowd で No.1 に ranking し、いくつかの benchmark で従来手法を上回ります。
Most recent methods used for crowd counting are based on the convolutional neural network (CNN), which has a strong ability to extract local features. But CNN inherently fails in modeling the global context due to the limited receptive fields. However, the transformer can model the global context easily. In this paper, we propose a simple approach called CCTrans to simplify the design pipeline. Specifically, we utilize a pyramid vision transformer backbone to capture the global crowd information, a pyramid feature aggregation (PFA) model to combine low-level and high-level features, an efficient regression head with multi-scale dilated convolution (MDC) to predict density maps. Besides, we tailor the loss functions for our pipeline. Without bells and whistles, extensive experiments demonstrate that our method achieves new state-of-the-art results on several benchmarks both in weakly and fully-supervised crowd counting. Moreover, we currently rank No.1 on the leaderboard of NWPU-Crowd. Our code will be made available.
研究の動機と目的
- 限られた CNN の受容野を超えてグローバルなコンテキストをより良くモデル化することで、crowd counting の改善を動機付ける。
- 完全教師ありと弱教師ありの crowd counting を統一するための簡略化された、トランスフォーマーベースのパイプラインを提案する。
- ピラミッドトランスフォーマーでグローバルコンテキストを活用し、マルチレベル特徴を集約して正確な密度マップを作成する。
- 軽量な回帰ヘッドを開発し、マルチスケール受容野と特化した損失を備える。
- 5つの標準ベンチマークで最先端の性能を示す。
提案手法
- 画像を 1D シーケンスのパッチに変換し、グローバルコンテキストを捉えるために pyramid transformer バックボーン(Twins)を用いて処理する。
- ステージ出力を2D特徴マップにリシェイプし、Pyramid Feature Aggregation を適用して低レベルと高レベルの情報を結合する。
- Multi-scale Dilated Convolution を用いた回帰ヘッドで密度マップを回帰し、マルチスケールの受容野を持つ。
- L1、OT、滑らかな L2 成分を組み合わせた完全教師付き密度回帰損失と、滑らかな L1 カウント損失を組み合わせた弱教師ありの損失を使って訓練する。
- 必要に応じて弱監視の下で、密度マップのピクセルを合計して人数を取得する。
- 設計ブロック2つ(PFA と MDC)と綿密な損失設定を組み合わせることで、過度な複雑さなしに強力な性能を達成する。
実験結果
リサーチクエスチョン
- RQ1トランスフォーマー型のバックボーンと単純な特徴量 aggregation が、標準ベンチマークの下で、 supervision mode に関係なく、CNN ベースの crowd counting パイプラインと同等かそれ以上を達成できるか?
- RQ2グローバルコンテキストがピラミッドトランスフォーマーによってよくモデル化されている場合、軽量なマルチスケール拡張回帰ヘッドは密度マップ回帰に十分か?
- RQ3特化した損失関数が完全教師あり・弱教師ありの crowd counting の性能に与える影響は?
- RQ4提案手法 CCTrans は TransCrowd や BCCT といったトランスフォーマーベースのカウンターポイントとデータセット間でどう比較されるか?
主な発見
- CCTrans は完全教師あり・弱教師あり設定の両方で複数の人気のある crowd counting ベンチマークで新しい最先端の結果を達成した。
- NWPU-Crowd では、CCTrans はリーダーボードで No.1 にランク付けされている(検証とテストの性能が報告されている)。
- マルチスケール拡張畳み込み(MDC)を用いた単純な回帰ヘッドは、密度回帰のためにマルチスケールの文脈を効果的に活用する。
- Pyramid Feature Aggregation (PFA) は、マルチステージのトランスフォーマー特徴を融合することで性能を大幅に向上する。
- 慎重に設計された損失(弱教師ありには滑らかな L1、完全教師ありには L1+OT+平滑化 L2)により、堅牢性と精度が向上する。
- アブレーション研究は、最終性能への PFA および MDC の寄与を確認する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。