[论文解读] Sentiment in New York City: A High Resolution Spatial and Temporal View
本研究利用带有地理标签的推特数据和自定义的基于表情符号的情感分类器,对纽约市的公众情绪进行了映射,发现情绪在公园中最高,在交通枢纽最低,且存在明显的昼夜和周周期性,分别在午夜和周末达到峰值。该方法无需依赖语言特定的词典,即可实现高分辨率的时空情绪分析。
Measuring public sentiment is a key task for researchers and policymakers alike. The explosion of available social media data allows for a more time-sensitive and geographically specific analysis than ever before. In this paper we analyze data from the micro-blogging site Twitter and generate a sentiment map of New York City. We develop a classifier specifically tuned for 140-character Twitter messages, or tweets, using key words, phrases and emoticons to determine the mood of each tweet. This method, combined with geotagging provided by users, enables us to gauge public sentiment on extremely fine-grained spatial and temporal scales. We find that public mood is generally highest in public parks and lowest at transportation hubs, and locate other areas of strong sentiment such as cemeteries, medical centers, a jail, and a sewage facility. Sentiment progressively improves with proximity to Times Square. Periodic patterns of sentiment fluctuate on both a daily and a weekly scale: more positive tweets are posted on weekends than on weekdays, with a daily peak in sentiment around midnight and a nadir between 9:00 a.m. and noon.
研究动机与目标
- 利用社交媒体数据开发纽约市公众情绪的高分辨率时空视图。
- 基于表情符号构建专门针对140个字符推文的分类器,避免依赖外部词典。
- 识别城市环境中(包括公园、交通枢纽和医疗机构)公众情绪的地理与时间模式。
- 评估利用推特实现实时、细粒度情绪分析在城市环境中的可行性。
- 通过数字痕迹数据探索城市基础设施与集体情绪状态之间的关系。
提出的方法
- 使用推特的流媒体API,通过北纬40°至41°、西经73°至74°的边界框,收集2012年4月13日至26日期间纽约市的603,954条带有地理标签的推文。
- 利用表情符号作为训练标签构建二元情感分类器,以正面和负面表情符号为基础进行监督学习。
- 对推文进行标准化处理,将URL和用户名分别替换为'URL'和'USER',并对剩余文本进行分词处理。
- 应用两个朴素贝叶斯分类器——一个用于正面情感,一个用于负面情感——使用每条推文中独特词元生成的特征集。
- 通过公式:(p₁ + (1 − p₂)) / 2 计算综合情感得分,其中p₁为正面情感的概率,p₂为负面情感的概率。
- 将情感得分映射至人口普查区块级别的空间单元,以颜色编码的情感地图形式可视化结果,青色表示高正向情绪,品红色表示低正向情绪。
实验结果
研究问题
- RQ1纽约市哪些区域公众情绪水平最高和最低,哪些城市特征与这些极端值相关?
- RQ2公众情绪在一天中的不同时间以及一周的不同日子如何变化?
- RQ3靠近时代广场在多大程度上影响其周边区域的整体情绪水平?
- RQ4特定城市基础设施(如交通枢纽、墓地和污水处理设施)如何通过社交媒体反映影响集体情绪?
- RQ5基于表情符号的情感分类是否能提供一种可靠、语言无关的方法,用于分析短文本社交媒体内容中的公众情绪?
主要发现
- 公众情绪在城市公园中最高,中央公园显示出明显的高正向情绪带;而在交通枢纽如宾州车站、布鲁克林大桥和中城隧道则最低。
- 情绪在午夜左右达到峰值,上午9点至中午之间达到最低谷,且从早晨到傍晚持续上升,尤其在下班后更为显著。
- 周末情绪整体比工作日更积极,具有相似的每日模式,但整体正向情绪水平更高。
- 从距离时代广场0公里处的正向推文比例0.74下降至10公里处的0.60,表明以时代广场为中心存在可测量的情绪空间梯度。
- 墓地如帕拉西德斯和维霍肯,以及马斯佩斯溪污水处理厂表现出强烈负面情绪,可能与气味和环境问题有关。
- 里根岛、如迈蒙尼德医疗中心和路德会医疗中心等医疗机构,以及机场也显示出强烈的负面或混合情绪,反映出机构或环境压力因素的影响。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。