QUICK REVIEW

[논문 리뷰] Leveraging Unlabeled Data for Crowd Counting by Learning to Rank

Xialei Liu, Joost van de Weijer|arXiv (Cornell University)|2018. 03. 08.

Video Surveillance and Tracking Methods참고 문헌 34인용 수 23

한 줄 요약

이 논문은 랭킹 불변성(하나의 붐비는 장면의 부분 이미지에는 부모 이미지보다 적거나 같은 수의 사람이 포함됨)을 활용하여 레이블이 없는 군중 이미지를 활용하는 자기지도 학습 접근법을 제안한다. 다중 작업 네트워크를 동시에 밀도 맵을 예측하고 하위 이미지의 사람 수에 따라 랭킹을 매김으로써, UCF_CC_50 및 상하이테크 데이터셋에서 최신 기술 수준(SOTA) 성능을 달성하며, 레이블이 제한된 데이터 조건에서도 일반화 능력을 크게 향상시키고 오차를 감소시킨다.

ABSTRACT

We propose a novel crowd counting approach that leverages abundantly available unlabeled crowd imagery in a learning-to-rank framework. To induce a ranking of cropped images , we use the observation that any sub-image of a crowded scene image is guaranteed to contain the same number or fewer persons than the super-image. This allows us to address the problem of limited size of existing datasets for crowd counting. We collect two crowd scene datasets from Google using keyword searches and query-by-example image retrieval, respectively. We demonstrate how to efficiently learn from these unlabeled datasets by incorporating learning-to-rank in a multi-task network which simultaneously ranks images and estimates crowd density maps. Experiments on two of the most challenging crowd counting datasets show that our approach obtains state-of-the-art results.

연구 동기 및 목표

레이블이 부족하고 수기로 레이블링하는 데 비용이 많이 드는 군중 수세기 데이터셋의 핵심적 한계를 해결하기 위해 풍부한 레이블이 없는 군중 이미지를 활용한다.
웹에서 확보한 레이블이 없는 데이터를 활용해 자기지도 사전 훈련을 통해 딥 군중 수세기 모델의 일반화 능력과 성능을 향상시킨다.
밀도 회귀와 이미지 조각 간 상대적 랭킹을 동시에 최적화하는 다중 작업 학습 프레임워크를 개발한다.
랭킹 기반 자기지도 학습이 기존의 사전 훈련 및 미세조정 전략보다 군중 수세기에서 더 우수한 성능을 내는가를 입증한다.
교차 데이터셋 전이 학습과 최신 기술 수준의 접근법과의 비교를 통해 방법의 효과성을 검증한다.

제안 방법

붐비는 장면의 부분 이미지가 부모 이미지에 비해 사람 수가 같거나 적다는 관찰을 바탕으로, 잘린 이미지의 자연스러운 랭킹을 생성한다.
Google에서 키워드 검색과 예제 기반 이미지 검색을 통해 두 개의 큰 레이블이 없는 군중 데이터셋을 수집한다.
대조적 랭킹 손실을 사용하여 동시에 군중 밀도 추정과 이미지 조각 랭킹을 수행하는 다중 작업 딥 러닝 아키텍처를 설계한다.
훈련 중에 자기지도 랭킹 목표를 적용한다: 중첩된 코너에 대해, 모델은 더 큰 이미지에 더 많은 사람이 있다는 것을 예측하도록 학습한다.
레이블이 있는 데이터에 대한 지도 학습 손실과 레이블이 없는 데이터에 대한 대조적 랭킹 손실을 조합하여 네트워크를 종합적으로 훈련한다.
데이터 증강과 다중 해상도 추론을 활용해 강인성과 일반화 능력을 향상시킨다.

실험 결과

연구 질문

RQ1자신의 지도 랭킹을 통해 레이블이 없는 군중 장면의 이미지 조각을 랭킹하면 군중 수세기 성능이 향상되는가?
RQ2다중 작업 네트워크에서 랭킹을 보조 작업으로 통합하면 기존의 사전 훈련 또는 미세조정 전략보다 더 좋은 결과를 얻을 수 있는가?
RQ3특히 한 데이터셋에서 훈련하고 다른 데이터셋에서 테스트할 경우, 이 방법의 교차 데이터셋 일반화 능력은 얼마나 효과적인가?
RQ4제안된 방법이 벤치마크 데이터셋에서 기존의 최신 기술 수준의 군중 수세기 모델을 능가할 수 있는가?
RQ5랭킹 기반 자기지도 학습은 순수하게 지도 학습에 비해 오차를 줄이고 강인성을 향상시키는가?

주요 결과

UCF_CC_50 데이터셋에서, 키워드 기반 레이블이 없는 데이터셋을 사용하여 MAE를 기존 SOTA(295.8)에서 279.6으로 감소시켰다.
상하이테크 Part_A 데이터셋에서, MAE는 73.6, MSE는 112.0을 기록하여 이전 SOTA 방법을 초월했다.
상하이테크 Part_B에서는 MAE가 13.7, MSE가 21.4를 기록하여 도전적인 고밀도 장면에서도 뛰어난 성능을 보였다.
랭킹과 수세기의 다중 작업 접근법은 단일 작업 훈련보다 우수하며, 기준 모델 대비 상하이테크 Part_B에서 MAE가 30% 향상되었다.
교차 데이터셋 전이 학습(상하이테크 Part_A → UCF_CC_50)에서, MAE는 349.5에서 337.6으로, MSE는 475.7에서 434.3으로 감소하여, 유일하게 이러한 결과를 보고한 다른 방법보다 뛰어났다.
방법은 잘 일반화되며, 그림 5에 시각화된 바와 같이 예측 결과가 진짜 밀도 맵과 높은 일치도를 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.