[論文レビュー] Learning from Synthetic Data for Crowd Counting in the Wild
この論文は GTA5 から自動ラベリング付きの大規模合成 GCC データセットを作成し、現実世界の群衆カウントを改善する2つのアプローチを示す:合成データでの事前学習とファインチューニング、SSIM 埋め込み CycleGAN によるドメイン適応を通じた合成から現実映像への翻訳による教師なし学習。
Recently, counting the number of people for crowd scenes is a hot topic because of its widespread applications (e.g. video surveillance, public security). It is a difficult task in the wild: changeable environment, large-range number of people cause the current methods can not work well. In addition, due to the scarce data, many methods suffer from over-fitting to a different extent. To remedy the above two problems, firstly, we develop a data collector and labeler, which can generate the synthetic crowd scenes and simultaneously annotate them without any manpower. Based on it, we build a large-scale, diverse synthetic dataset. Secondly, we propose two schemes that exploit the synthetic data to boost the performance of crowd counting in the wild: 1) pretrain a crowd counter on the synthetic data, then finetune it using the real data, which significantly prompts the model's performance on real data; 2) propose a crowd counting method via domain adaptation, which can free humans from heavy data annotations. Extensive experiments show that the first method achieves the state-of-the-art performance on four real datasets, and the second outperforms our baselines. The dataset and source code are available at https://gjy3035.github.io/GCC-CL/.
研究の動機と目的
- 野外での群衆カウントをデータ不足と合成と実世界シーン間のドメインギャップに対処して動機づける。
- GTA5 から自動注釈付きの大規模で多様な合成データセット(GCC)を作成する。
- GCC を活用して現実データの性能を向上させる監督学習の事前学習とファインチューニング戦略を提案する。
- SE Cycle GAN を開発し、局所テクスチャを SSIM ベースのサイクル整合性損失で保持しつつ合成シーンをフォトリアリスティックな画像に翻訳し、現実データラベルなしで訓練するドメイン適応手法。
- 複数の現実世界データセットで評価して性能向上とドメイン転送能力を示す。
提案手法
- 空間全畳み込みネットワーク(SFCN)を導入し、画像から密度マップを直接回帰する。
- GTA5 Crowd Counting(GCC)データセットを作成し、15,212 枚の画像と 7,625,843 個のラベル付き頭部を 400 シーンにわたって収録、天候・時間・場所の多様性を持つ。
- GCC で群衆カウンターを事前学習し、現実データでファインチューニングして初期化を改善し過学習を抑制する。
- SSIM 埋め込み(SE)Cycle GAN を提案し、SSIM ベースの循環整合損失を用いて局所的テクスチャを保持しつつ合成シーンをフォトリアリスティック画像に翻訳する。
- Density/Scene Regularization(密度/シーン正規化)を取り入れ、 MAX_S 値で出力を制限し、ドメイン差のあるデータセット向けには翻訳データを選択的にサンプルする。
- GCC での事前学習が現実データセットでの MAE/MSE を初期からの学習や ImageNet 初期化より低くすることを示す。
実験結果
リサーチクエスチョン
- RQ1GCC での合成データ事前学習はファインチューニング後の現実データの群衆カウント性能を改善できるか?
- RQ2ドメイン適応翻訳(SE Cycle GAN)は合成-現実のドメインギャップを十分に低減し、現実データでの教師なし学習を可能にするか?
- RQ3密度認識に基づく正規化とデータ選択戦略を群衆カウントのドメイン適応で適用するとどんな利点があるか?
- RQ4提案された SFCN は GCC での様々な訓練/テスト分割の下で既存のベースラインとどう比較されるか?
- RQ5どの程度まで合成データが現実の群衆カウントベンチマークで最先端の性能を可能にするか?
主な発見
- GCC で事前学習を行い現実データでファインチューニングすることで、Scratch で訓練した場合や ImageNet 初期化を用いた場合と比較してMAE/MSE の誤差を低減させる(例:MCNN: from 277/426 to 199.8/311.2 on UCF-QNRF and 26.4/41.3 to 18.8/28.2 on SHHT B)。
- SFCN は GCC 上のランダム、クロスカメラ、クロスロケーション分割で競争力が高く、しばしば上回る精度を示す(例:SFCN: random 36.2/81.1 MAE/MSE; cross-camera 56.0/129.7; cross-location 89.3/216.8)。
- SFCN† モデルは GCC でファインチューニングすると五つの現実データセットで最先端の結果を達成(例:UCF-QNRF: 102.0/171.4 MAE/MSE vs SOTA 132/191)。
- SE Cycle GAN は Cycle GAN や No Adaptation に比べて複数の現実データセットでドメイン適応を大幅に改善(例:ShanghaiTech A: NoAdpt 160.0 MAE vs CycleGAN 143.3 MAE vs SE Cycle GAN 123.4 MAE)。
- Density/Scene Regularization(DSR)は現実データに存在しない合成シーンを除外して適応を改善し、ShanghaiTech A で DSR あり/なしのCycle GAN を超える性能を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。