Skip to main content
QUICK REVIEW

[論文レビュー] RGB-T Multi-Modal Crowd Counting Based on Transformer

Zhengyi Liu, Wei Wu|arXiv (Cornell University)|Jan 8, 2023
Video Surveillance and Tracking Methods被引用数 8
ひとこと要約

この論文は、学習可能なカウントトークンの下でカラーとサーマル特徴を融合するカウントガイド付きマルチモーダル融合とマルチスケールトークン変換機を用いたRGB-T群衆カウントモデルを提案し、RGB-T群衆カウントで最先端を達成する。

ABSTRACT

Crowd counting aims to estimate the number of persons in a scene. Most state-of-the-art crowd counting methods based on color images can't work well in poor illumination conditions due to invisible objects. With the widespread use of infrared cameras, crowd counting based on color and thermal images is studied. Existing methods only achieve multi-modal fusion without count objective constraint. To better excavate multi-modal information, we use count-guided multi-modal fusion and modal-guided count enhancement to achieve the impressive performance. The proposed count-guided multi-modal fusion module utilizes a multi-scale token transformer to interact two-modal information under the guidance of count information and perceive different scales from the token perspective. The proposed modal-guided count enhancement module employs multi-scale deformable transformer decoder structure to enhance one modality feature and count information by the other modality. Experiment in public RGBT-CC dataset shows that our method refreshes the state-of-the-art results. https://github.com/liuzywen/RGBTCC

研究の動機と目的

  • 暗昏環境下でRGB-Tモダリティを活用して堅牢な群衆カウントを実現する。
  • RGBとサーマル特徴をグローバルカウント制約とともに融合するカウントガイド融合機構を開発する。
  • 群衆の大規模な変動に対応するためのマルチスケールトークン変換機を導入する。
  • 一方のモダリティが他方のカウントを洗練させるモーダル指向のカウント強化を可能にする。

提案手法

  • 高層レベルのRGBとサーマル特徴を抽出するための2つのPVTエンコーダを使用する。
  • 学習可能なカウントトークンを導入し、Multi-Scale Token Transformer (MSTTrans)を介してRGBとサーマルトークンのカウント認識融合を導く。
  • 初期・中尺度・大尺度の3つのトークンスケールを構築し、並列のマルチヘッド自己注意機構を適用して融合します。
  • モーダルガイド付きカウント強化モジュール(MSDTrans)を提案し、可形変形アテンションを用いて一方のモダリティの密度/カウントをもう一方から洗練させる。
  • 回帰ヘッドで密度マップを出力し、カウントトークンに対してL1損失を用い、密度マップには分布整合性損失を課す。

実験結果

リサーチクエスチョン

  • RQ1カウントガイド融合は既存の融合戦略よりRGB-T群衆カウントを改善できるか?
  • RQ2マルチスケールトークン変換機はRGB-Tカウントで大規模変動を緩和できるか?
  • RQ3モーダルガイド付きカウント強化はモダリティ間の情報伝達によって密度マップの精度を改善できるか?
  • RQ4提案モジュール(MSTTransとMSDTrans)の標準RGB-Tデータセットへの累積的効果はどの程度か?

主な発見

  • 本手法はRGB-T群衆カウントデータセットのRGBt-CCで最先端の結果を達成し、他データセットの2位手法と比較して明確な改善を示す。
  • MSTTransはGAME(0)を11.62から10.91へ改善し、融合とマルチスケール文脈の向上を享受している。
  • MSDTransは一方のモダリティが他方のカウント推定を補助することによって追加の利得を提供する。
  • 全体モデルの結果は、RGBt-CCでGAME(0)=10.90、GAME(1)=14.81、GAME(2)=19.02、GAME(3)=26.14、RMSE=18.79となる。
  • アブレーション研究は、カウントガイダンスと多尺度設計が融合とカウントの効果的であることを裏付ける。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。