Skip to main content
QUICK REVIEW

[논문 리뷰] Fine-Grained Car Detection for Visual Census Estimation

Timnit Gebru, Jonathan Krause|arXiv (Cornell University)|2017. 09. 07.
Video Surveillance and Tracking Methods참고 문헌 20인용 수 20
한 줄 요약

이 논문은 구글 스트리트 뷰 이미지에서 세분화된 자동차 검출을 활용하여 소득, 범죄율, 이산화탄소 배출량과 같은 사회경제적 특성을 대규모로 예측하는 컴퓨터 비전 파이프라인을 제안한다. 새로 구성한 2657개의 자동차 클래스를 포함한 대규모 데이터셋을 기반으로 훈련된 검출 모델은 실제 소득 데이터와 높은 상관관계(r=0.82)를 보이며, 차종과 주거지 인구 특성 간의 사회학적 통찰을 제시한다.

ABSTRACT

Targeted socioeconomic policies require an accurate understanding of a country's demographic makeup. To that end, the United States spends more than 1 billion dollars a year gathering census data such as race, gender, education, occupation and unemployment rates. Compared to the traditional method of collecting surveys across many years which is costly and labor intensive, data-driven, machine learning driven approaches are cheaper and faster--with the potential ability to detect trends in close to real time. In this work, we leverage the ubiquity of Google Street View images and develop a computer vision pipeline to predict income, per capita carbon emission, crime rates and other city attributes from a single source of publicly available visual data. We first detect cars in 50 million images across 200 of the largest US cities and train a model to predict demographic attributes using the detected cars. To facilitate our work, we have collected the largest and most challenging fine-grained dataset reported to date consisting of over 2600 classes of cars comprised of images from Google Street View and other web sources, classified by car experts to account for even the most subtle of visual differences. We use this data to construct the largest scale fine-grained detection system reported to date. Our prediction results correlate well with ground truth income data (r=0.82), Massachusetts department of vehicle registration, and sources investigating crime rates, income segregation, per capita carbon emission, and other market research. Finally, we learn interesting relationships between cars and neighborhoods allowing us to perform the first large scale sociological analysis of cities using computer vision techniques.

연구 동기 및 목표

  • 공개된 시각 데이터를 활용하여 사회경제적 특성을 스케일링 가능한 컴퓨터 비전 파이프라인을 개발하기 위해.
  • 비용이 많이 들고 시간이 오래 걸리는 전통적인 설문 기반의 인구 통계 데이터 수집 방식의 한계를 해결하기 위해.
  • 도시 환경에서의 객체 인식 향상을 위해 지금까지 가장 크고 도전적인 세분화된 자동차 데이터셋을 구축하기 위해.
  • 차종과 소득, 분리 현상 등 주거지 특성 간의 사회학적 관계를 탐색하기 위해.
  • 스트리트 뷰에서의 시각 데이터가 고도로 정교한 도시 지표를 높은 정확도로 예측할 수 있음을 입증하기 위해.

제안 방법

  • 5000만 장의 미국 200개 도시에서의 구글 스트리트 뷰 이미지를 기반으로 대규모 세분화된 자동차 검출 시스템을 훈련시켰다.
  • 웹 자료와 스트리트 뷰에서 확보한 70만 장의 이미지를 포함한 2657개의 자동차 클래스를 포함한 새로운 데이터셋을 차량 전문가들이 수집하고 주석을 달았다.
  • 우편번호 단위로 차량의 제조사, 모델, 연식, 차체 유형, 가격 등의 특징을 추출하여 주거지 내 차량 구성 특성을 표현했다.
  • 자동차 특징 벡터를 입력으로 사용하여 릿지 회귀 모델을 훈련시어 중가구 소득과 범죄율을 예측했다.
  • 도시 전역에서 차량 소유의 분리 패턴을 분석하기 위해 모란의 I와 게티스-오르드 G와 같은 공간 자기상관 지표를 사용했다.
  • 모델 성능 평가를 위해 예측된 값과 실제 사회경제적 변수 간의 피어슨 상관계수를 계산했다.

실험 결과

연구 질문

  • RQ1스트리트 뷰 이미지에서의 세분화된 자동차 검출은 도시 수준의 사회경제적 지표, 예를 들어 소득과 범죄율을 예측할 수 있는가?
  • RQ2특정 자동차 특성과 소득, 분리 현상과 같은 주거지 수준의 인구 특성 간의 관계는 무엇인가?
  • RQ3단일 소스(구글 스트리트 뷰)에서의 시각 데이터로는 기존에 비용이 많이 드는 설문 조사로만 수집되던 다양한 도시 지표를 얼마나 잘 예측할 수 있는가?
  • RQ4미국 도시 전역에서 차량 소유에 대해 측정 가능한 공간적 패턴이 존재하는가, 이는 사회경제적 분리 현상을 반영하는가?
  • RQ5우편번호 수준에서 소득과 범죄를 가장 잘 예측하는 자동차 특징는 무엇인가?

주요 결과

  • 모델은 도시 수준에서 예측된 중가구 소득과 실제 소득 데이터 간에 피어슨 상관계수 r=0.82를 기록했으며, 우편번호 수준에서는 r=0.70의 상관계수를 보였다.
  • 수입과 가장 강하게 상관된 자동차 특성은 수입 차량 비율이었으며, 상관계수 r=0.47이었고, 이어 평균 차량 가격(r=0.44)이 뒤이었다.
  • 이미지당 차량 수가 범죄 예측의 가장 강력한 지표였으며, 사람에 대한 범죄의 경우 r=0.36, 재산 범죄의 경우 r=0.31의 상관계수를 보였다.
  • 밴은 총 범죄에 대해 중요한 예측 변수였으며, 상관계수 r=0.30를 기록하여 차량 밀도가 증가할수록 범죄 활동이 증가할 가능성이 있음을 시사했다.
  • 시카고는 가장 높은 분리 수준(Moran’s I = 0.82)을 보였고, 잭슨빌은 이의 33% 수준에 머물러 외부 사회학적 순위와 일치했다.
  • 시스템은 시각 데이터만을 사용하여 인구 1인당 이산화탄소 배출량, 차량 등록 수, 소득 분리 수준을 성공적으로 예측했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.