[论文解读] Deciphering the 2016 U.S. Presidential Campaign in the Twitter Sphere: A Comparison of the Trumpists and Clintonists
本研究利用自建数据集(US2016),分析了2016年美国总统大选期间唐纳德·特朗普与希拉里·克林顿在Twitter上的粉丝群体的人口统计特征,该数据集包含粉丝资料、地理位置、粉丝数量及个人头像。通过结合粉丝数量作为社会影响力代理指标,并对头像图像使用卷积神经网络(CNN)分析,研究发现特朗普支持者在社会上更具极化特征,且年龄分布更趋极端,而克林顿支持者则在种族构成上更具多样性,且未发现明显的性别亲和效应。
In this paper, we study follower demographics of Donald Trump and Hillary Clinton, the two leading candidates in the 2016 U.S. presidential race. We build a unique dataset US2016, which includes the number of followers for each candidate from September 17, 2015 to December 22, 2015. US2016 also includes the geographical location of these followers, the number of their own followers and, very importantly, the profile image of each follower. We use individuals' number of followers and profile images to analyze four dimensions of follower demographics: social status, gender, race and age. Our study shows that in terms of social influence, the Trumpists are more polarized than the Clintonists: they tend to have either a lot of influence or little influence. We also find that compared with the Clintonists, the Trumpists are more likely to be either very young or very old. Our study finds no gender affinity effect for Clinton in the Twitter sphere, but we do find that the Clintonists are more racially diverse.
研究动机与目标
- 调查2016年美国总统大选期间唐纳德·特朗普与希拉里·克林顿粉丝之间的人口统计差异。
- 检验Twitter上是否存在性别亲和效应,特别是女性是否更可能关注希拉里·克林顿。
- 评估两位候选人粉丝群体的种族多样性,并比较各族裔群体的代表性差异。
- 分析年龄分布模式,判断哪位候选人的粉丝更集中于特定年龄区间。
- 通过粉丝数量作为在线地位的代理指标,评估社会影响力差异。
提出的方法
- 构建了US2016数据集,于2015年9月17日至12月22日期间收集数据,涵盖两位候选人的粉丝数量、地理位置及个人头像。
- 使用OpenCV从头像中检测并提取面部图像,筛选出高质量、面部居中且大小超过25KB的图像,并将其重采样为256×256像素。
- 在MORPH数据库上训练卷积神经网络(CNN),以从头像图像中分类性别、种族(白人、黑人、西班牙裔)及年龄,因样本量过少而排除亚洲面孔。
- 采用Z检验统计量评估特朗普支持者与克林顿支持者在人口统计比例差异上的统计显著性。
- 将粉丝数量视为社会影响力的代理指标,分析该影响力在两组粉丝中的分布特征。
- 采用Caffe实现的ImageNet架构(在ILSVRC上预训练)用于性别、种族和年龄分类任务。
实验结果
研究问题
- RQ1女性Twitter用户是否显著更倾向于关注希拉里·克林顿而非唐纳德·特朗普,表明存在性别亲和效应?
- RQ2希拉里·克林顿的粉丝是否比唐纳德·特朗普的粉丝更具种族多样性,特别是在非裔与西班牙裔群体的代表性方面?
- RQ3特朗普支持者与克林顿支持者之间是否存在显著的年龄分布差异,即特朗普支持者是否更可能为极年轻或极年长者?
- RQ4以粉丝数量衡量的社会影响力在两组粉丝之间有何差异,且特朗普支持者的影响力分布是否更具极化特征?
- RQ5Twitter粉丝的人口统计模式在多大程度上反映了2016年美国总统大选中的更广泛现实投票趋势?
主要发现
- 特朗普支持者表现出显著更高的社会影响力极化:他们更可能拥有极多或极少的粉丝数量,而克林顿支持者的影响力则更均匀地分布在影响力谱系的中段。
- 克林顿支持者的种族多样性显著高于特朗普支持者:克林顿支持者中非裔或西班牙裔的比例显著更高,而特朗普支持者则更可能为白人。
- 未发现具有统计显著性的性别亲和效应:克林顿支持者中女性粉丝的比例并不高于特朗普支持者。
- 特朗普支持者更可能属于1-17岁(未达投票年龄)或40岁以上群体,而克林顿支持者则更集中于18-40岁区间,该差异经Z检验确认具有统计显著性。
- 年龄分布显示,克林顿支持者更少出现在1-17岁和41-66岁区间,而更可能处于18-40岁范围,表明其与年轻成年选民存在代际契合。
- 所有关于种族与年龄构成的差异均具有统计显著性,所有Z检验的p值均为0,表明对原假设(比例相等)的强烈证据反对。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。