QUICK REVIEW

[논문 리뷰] Learning from Synthetic Data for Crowd Counting in the Wild

Qi Wang, Junyu Gao|arXiv (Cornell University)|2019. 03. 08.

Video Surveillance and Tracking Methods참고 문헌 37인용 수 51

한 줄 요약

본 논문은 GTA5로부터 자동 라벨링이 가능한 대형 합성 GCC 데이터셋을 만들고, 실제 현장 군중 카운팅을 개선하는 두 가지 방법을 제시한다: 합성 데이터로의 사전학습 후 미세조정, 그리고 합성 이미지를 실사 이미지로 번역하여 비지도 학습을 가능하게 하는 SSIM 내장 CycleGAN을 통한 도메인 적응.

ABSTRACT

Recently, counting the number of people for crowd scenes is a hot topic because of its widespread applications (e.g. video surveillance, public security). It is a difficult task in the wild: changeable environment, large-range number of people cause the current methods can not work well. In addition, due to the scarce data, many methods suffer from over-fitting to a different extent. To remedy the above two problems, firstly, we develop a data collector and labeler, which can generate the synthetic crowd scenes and simultaneously annotate them without any manpower. Based on it, we build a large-scale, diverse synthetic dataset. Secondly, we propose two schemes that exploit the synthetic data to boost the performance of crowd counting in the wild: 1) pretrain a crowd counter on the synthetic data, then finetune it using the real data, which significantly prompts the model's performance on real data; 2) propose a crowd counting method via domain adaptation, which can free humans from heavy data annotations. Extensive experiments show that the first method achieves the state-of-the-art performance on four real datasets, and the second outperforms our baselines. The dataset and source code are available at https://gjy3035.github.io/GCC-CL/.

연구 동기 및 목표

현실 세계의 데이터 부족과 합성-실세계 간 도메인 격차를 해결하여 야생의 군중 카운팅을 촉진한다.
GTA5에서 자동 주석을 가진 크고 다양한 합성 데이터셋(GCC)을 구축한다.
GCC를 활용한 감독 학습-사전학습 및 미세조정 전략을 제안하여 실데이터 성능을 향상시킨다.
합성에서 사진 사실적 이미지로의 번역을 통해 실데이터 라벨 없이 학습할 수 있는 도메인 적응 방법(SE Cycle GAN)을 개발한다.
여러 실세계 데이터셋에서 평가하여 성능 향상 및 도메인 전이 능력을 입증한다.

제안 방법

이미지에서 밀도 맵을 직접 회귀하는 공간적 완전합성신경망(SFCN)을 도입한다.
다양한 기상, 시간대, 위치를 가진 400개 장면에서 15,212장의 이미지와 7,625,843개의 주석 머리를 포함하는 GTA5 군중 카운팅(GCC) 데이터셋을 생성한다.
GCC에서 군중 카운터를 사전학습한 뒤 실데이터로 미세조정하여 초기화 개선 및 과적합 감소를 달성한다.
SSIM 기반 순환일관성 손실을 사용하여 합성 장면을 사진 실감 이미지로 변환하되 로컬 텍스처를 보존하는 SSIM Embedding(SE) Cycle GAN를 제안한다.
출력 값을 MAX_S로 bound하고 도메인 차이가 있는 데이터셋에서 변환된 데이터를 선택적으로 샘플링하는 밀도/장면 정규화(Density/Scene Regularization, DSR)을 도입한다.
GCC에서의 사전학습이 실데이터에서 처음부터 학습하거나 ImageNet 초기화보다 MAE/MSE를 낮춘다는 것을 보여준다.

실험 결과

연구 질문

RQ1GCC에서의 합성 데이터 사전학습이 미세조정 후 실제 데이터에서 군중 카운팅 성능을 향상시킬 수 있는가?
RQ2SE Cycle GAN을 통한 도메인 적응 번역이 합성-실세계 간 격차를 충분히 줄여 실데이터 비지도 학습을 가능하게 하는가?
RQ3도메인 적응에서 밀도 인지 정규화 및 데이터 선택 전략의 이점은 무엇인가?
RQ4제안된 SFCN이 GCC에서 다양한 학습/테스트 분할 하에서 기존 베이스라인과 어떻게 비교되는가?
RQ5합성 데이터가 실 세계 군중 카운팅 벤치마크에서 최첨단 성능을 어느 정도 가능하게 하는가?

주요 결과

GCC에서 사전학습한 뒤 실데이터로 미세조정하면 무작위 초기화나 ImageNet 초기화보다 MAE/MSE가 감소한다(예: MCNN: UCF-QNRF에서 277/426에서 199.8/311.2로, SHHT B에서 26.4/41.3에서 18.8/28.2로).
SFCN은 GCC에서 무작위, 교차 카메라, 교차 위치 분할에서 경쟁력 있고 종종 우수한 정확도를 달성한다(예: 무작위 36.2/81.1 MAE/MSE; 교차 카메라 56.0/129.7; 교차 위치 89.3/216.8).
GCC에서 미세조정된 SFCN† 모델이 다섯 개의 실데이터 셋에서 최첨단 결과를 달성한다(예: UCF-QNRF: 102.0/171.4 MAE/MSE vs SOTA 132/191).
SE Cycle GAN은 여러 실데이터 셋에서 Cycle GAN과 No Adaptation 대비 도메인 적응을 크게 개선한다(예: ShanghaiTech A에서 NoAdpt 160.0 MAE vs CycleGAN 143.3 MAE vs SE Cycle GAN 123.4 MAE).
Density/Scene Regularization(DSR)은 현실 데이터에 존재하지 않는 합성 장면을 걸러내어 도적 적응을 개선하고, ShanghaiTech A에서 Cycle GAN 대비 DSR 존재 여부에 따라 성능 향상을 가져온다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.