[논문 리뷰] Learning from Synthetic Data for Crowd Counting in the Wild
본 논문은 GTA5로부터 자동 라벨링이 가능한 대형 합성 GCC 데이터셋을 만들고, 실제 현장 군중 카운팅을 개선하는 두 가지 방법을 제시한다: 합성 데이터로의 사전학습 후 미세조정, 그리고 합성 이미지를 실사 이미지로 번역하여 비지도 학습을 가능하게 하는 SSIM 내장 CycleGAN을 통한 도메인 적응.
Recently, counting the number of people for crowd scenes is a hot topic because of its widespread applications (e.g. video surveillance, public security). It is a difficult task in the wild: changeable environment, large-range number of people cause the current methods can not work well. In addition, due to the scarce data, many methods suffer from over-fitting to a different extent. To remedy the above two problems, firstly, we develop a data collector and labeler, which can generate the synthetic crowd scenes and simultaneously annotate them without any manpower. Based on it, we build a large-scale, diverse synthetic dataset. Secondly, we propose two schemes that exploit the synthetic data to boost the performance of crowd counting in the wild: 1) pretrain a crowd counter on the synthetic data, then finetune it using the real data, which significantly prompts the model's performance on real data; 2) propose a crowd counting method via domain adaptation, which can free humans from heavy data annotations. Extensive experiments show that the first method achieves the state-of-the-art performance on four real datasets, and the second outperforms our baselines. The dataset and source code are available at https://gjy3035.github.io/GCC-CL/.
연구 동기 및 목표
- 현실 세계의 데이터 부족과 합성-실세계 간 도메인 격차를 해결하여 야생의 군중 카운팅을 촉진한다.
- GTA5에서 자동 주석을 가진 크고 다양한 합성 데이터셋(GCC)을 구축한다.
- GCC를 활용한 감독 학습-사전학습 및 미세조정 전략을 제안하여 실데이터 성능을 향상시킨다.
- 합성에서 사진 사실적 이미지로의 번역을 통해 실데이터 라벨 없이 학습할 수 있는 도메인 적응 방법(SE Cycle GAN)을 개발한다.
- 여러 실세계 데이터셋에서 평가하여 성능 향상 및 도메인 전이 능력을 입증한다.
제안 방법
- 이미지에서 밀도 맵을 직접 회귀하는 공간적 완전합성신경망(SFCN)을 도입한다.
- 다양한 기상, 시간대, 위치를 가진 400개 장면에서 15,212장의 이미지와 7,625,843개의 주석 머리를 포함하는 GTA5 군중 카운팅(GCC) 데이터셋을 생성한다.
- GCC에서 군중 카운터를 사전학습한 뒤 실데이터로 미세조정하여 초기화 개선 및 과적합 감소를 달성한다.
- SSIM 기반 순환일관성 손실을 사용하여 합성 장면을 사진 실감 이미지로 변환하되 로컬 텍스처를 보존하는 SSIM Embedding(SE) Cycle GAN를 제안한다.
- 출력 값을 MAX_S로 bound하고 도메인 차이가 있는 데이터셋에서 변환된 데이터를 선택적으로 샘플링하는 밀도/장면 정규화(Density/Scene Regularization, DSR)을 도입한다.
- GCC에서의 사전학습이 실데이터에서 처음부터 학습하거나 ImageNet 초기화보다 MAE/MSE를 낮춘다는 것을 보여준다.
실험 결과
연구 질문
- RQ1GCC에서의 합성 데이터 사전학습이 미세조정 후 실제 데이터에서 군중 카운팅 성능을 향상시킬 수 있는가?
- RQ2SE Cycle GAN을 통한 도메인 적응 번역이 합성-실세계 간 격차를 충분히 줄여 실데이터 비지도 학습을 가능하게 하는가?
- RQ3도메인 적응에서 밀도 인지 정규화 및 데이터 선택 전략의 이점은 무엇인가?
- RQ4제안된 SFCN이 GCC에서 다양한 학습/테스트 분할 하에서 기존 베이스라인과 어떻게 비교되는가?
- RQ5합성 데이터가 실 세계 군중 카운팅 벤치마크에서 최첨단 성능을 어느 정도 가능하게 하는가?
주요 결과
- GCC에서 사전학습한 뒤 실데이터로 미세조정하면 무작위 초기화나 ImageNet 초기화보다 MAE/MSE가 감소한다(예: MCNN: UCF-QNRF에서 277/426에서 199.8/311.2로, SHHT B에서 26.4/41.3에서 18.8/28.2로).
- SFCN은 GCC에서 무작위, 교차 카메라, 교차 위치 분할에서 경쟁력 있고 종종 우수한 정확도를 달성한다(예: 무작위 36.2/81.1 MAE/MSE; 교차 카메라 56.0/129.7; 교차 위치 89.3/216.8).
- GCC에서 미세조정된 SFCN† 모델이 다섯 개의 실데이터 셋에서 최첨단 결과를 달성한다(예: UCF-QNRF: 102.0/171.4 MAE/MSE vs SOTA 132/191).
- SE Cycle GAN은 여러 실데이터 셋에서 Cycle GAN과 No Adaptation 대비 도메인 적응을 크게 개선한다(예: ShanghaiTech A에서 NoAdpt 160.0 MAE vs CycleGAN 143.3 MAE vs SE Cycle GAN 123.4 MAE).
- Density/Scene Regularization(DSR)은 현실 데이터에 존재하지 않는 합성 장면을 걸러내어 도적 적응을 개선하고, ShanghaiTech A에서 Cycle GAN 대비 DSR 존재 여부에 따라 성능 향상을 가져온다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.