Skip to main content
QUICK REVIEW

[논문 리뷰] Sentiment in New York City: A High Resolution Spatial and Temporal View

Karla Z. Bertrand, Maya Bialik|arXiv (Cornell University)|2013. 08. 22.
Human Mobility and Location-Based Analysis참고 문헌 17인용 수 55
한 줄 요약

이 연구는 뉴욕 시티 전역의 공공 정서를 지리적으로 태깅된 트위터 데이터와 맞춤형 이모티콘 기반 정서 분류기로 맵핑하여, 정서가 공원에서 가장 높고 교통 허브에서 가장 낮으며, 매일 및 매주 주기적으로 변동함을 밝혀냈다. 이 방법은 언어에 종속되지 않는 어휘집을 사용하지 않고도 도시 정서의 고해상도 시공간 분석을 가능하게 한다.

ABSTRACT

Measuring public sentiment is a key task for researchers and policymakers alike. The explosion of available social media data allows for a more time-sensitive and geographically specific analysis than ever before. In this paper we analyze data from the micro-blogging site Twitter and generate a sentiment map of New York City. We develop a classifier specifically tuned for 140-character Twitter messages, or tweets, using key words, phrases and emoticons to determine the mood of each tweet. This method, combined with geotagging provided by users, enables us to gauge public sentiment on extremely fine-grained spatial and temporal scales. We find that public mood is generally highest in public parks and lowest at transportation hubs, and locate other areas of strong sentiment such as cemeteries, medical centers, a jail, and a sewage facility. Sentiment progressively improves with proximity to Times Square. Periodic patterns of sentiment fluctuate on both a daily and a weekly scale: more positive tweets are posted on weekends than on weekdays, with a daily peak in sentiment around midnight and a nadir between 9:00 a.m. and noon.

연구 동기 및 목표

  • 소셜 미디어 데이터를 활용하여 뉴욕 시티의 공공 정서에 대한 고해상도 시공간적 시각을 제공하는 것.
  • 외부 어휘집에 의존하지 않고 140자 이내의 트위터 메시지에 특화된 정서 분류기를 개발하는 것.
  • 공원, 교통 허브, 의료 시설 등 다양한 도시 환경에서의 정서적 패턴을 규명하는 것.
  • 실시간으로 세밀한 수준의 정서 분석을 위해 트위터를 사용하는 것이 가능한지 평가하는 것.
  • 디지털 트레이스 데이터를 통해 도시 인프라와 집단 정서 상태 간의 관계를 탐색하는 것.

제안 방법

  • 2012년 4월 13일부터 26일까지 뉴욕 시티에서 603,954건의 지리적으로 태깅된 트위터 트윗을 수집하였으며, 40°에서 41°N, 73°에서 74°W 사이의 경계 상자로 Twitter의 스트리밍 API를 사용하였다.
  • 이모티콘을 학습 레이블로 사용하여 이진 정서 분류기를 구축하였으며, 긍정 및 부정 이모티콘을 기반으로 지도 학습을 수행하였다.
  • URL과 사용자 이름을 각각 'URL'과 'USER'로 대체하고, 나머지 텍스트를 토큰화하여 트윗을 표준화하였다.
  • 각 트윗의 고유 토큰에서 파생된 특징 집합을 사용하여 두 개의 나이브 베이즈 분류기(긍정 및 부정 정서용)를 적용하였다.
  • 다음 공식을 사용하여 복합 정서 점수를 계산하였다: (p₁ + (1 − p₂)) / 2, 여기서 p₁은 긍정 정서일 확률, p₂는 부정 정서일 확률이다.
  • 정서 점수를 인구 조사 블록 수준의 공간 단위에 매핑하여, 시각화 결과를 시안(파란빛)이 높은 긍정성,品드(자홍빛)가 낮은 긍정성을 나타내는 색상 코딩된 정서 지ap으로 제시하였다.

실험 결과

연구 질문

  • RQ1뉴욕 시티에서 공공 정서 수준이 가장 높고 낮은 지역은 어디이며, 이러한 극단과 관련된 도시적 특징은 무엇인가?
  • RQ2공공 정서는 하루 중 시간대와 요일에 따라 어떻게 변화하는가?
  • RQ3타임스 스퀘어에 근접할수록 주변 지역의 전체 정서 수준에 어떤 영향을 미치는가?
  • RQ4특정 도시 인프라—예를 들어 교통 허브, 시신묘지, 하수 처리 시설—는 소셜 미디어에 반영된 집단 정서에 어떤 영향을 미치는가?
  • RQ5이모티콘 기반 정서 분류는 짧은 소셜 미디어 텍스트에서 신뢰할 수 있고 언어에 종속되지 않는 방법으로 공공 정서 분석에 유용한가?

주요 결과

  • 공공 정서는 도시 공원에서 가장 높으며, 센트럴 파크는 높은 긍정성의 뚜렷한 밴드를 보이고, 교통 허브인 펜 스테이션, 브루클린 브리지, 밀드웨이 트러스트에서는 가장 낮다.
  • 정서는 약 밤 12시경에 최고조에 도달하고 오전 9시에서 정오 사이에 최저점에 이르며, 아침부터 저녁으로 향해 꾸준히 상승하며 특히 퇴근 후에 두드러진다.
  • 주말 정서는 평일 정서보다 일관되게 더 긍정적이며, 유사한 일일 패턴을 보이지만 전체적으로 더 높은 긍정성 수준을 유지한다.
  • 타임스 스퀘어에서 0km 떨어진 곳의 긍정적 트윗 비율은 0.74에서 시작하여 10km 떨어진 곳에서는 0.60으로 감소하여 타임스 스퀘어 중심의 정서적 공간 기울기를 명확히 보여준다.
  • 팔리세이즈와 유헤와켄 묘지, 마스페스 크리크 하수 처리 시설은 강한 부정 정서를 보이며, 악취와 환경적 우려로 인한 것으로 보인다.
  • 리커스 아일랜드, 메이몬리스 및 루스탄 의료 센터, 공항 등은 강한 부정 또는 혼합 정서를 나타내어 기관적 또는 환경적 스트레스 요인이 반영된 것으로 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.