QUICK REVIEW

[论文解读] A method to evaluate the reliability of social media data for social network analysis

Derek Weber, Mehwish Nasim|arXiv (Cornell University)|Oct 17, 2020

Complex Network Analysis Techniques参考文献 36被引用 9

一句话总结

本文提出了一套系统化的方法，通过比较使用两种工具——RAPID 和 Twarc——在 Twitter 上收集的并行数据集，评估社交媒体数据在社会网络分析中的可靠性。研究发现，数据采集工具的差异显著改变了网络结构和中心性排名，尤其是在提及网络中，这损害了社会网络分析结果的可重现性和有效性。

ABSTRACT

To study the effects of Online Social Network (OSN) activity on real-world offline events, researchers need access to OSN data, the reliability of which has particular implications for social network analysis. This relates not only to the completeness of any collected dataset, but also to constructing meaningful social and information networks from them. In this multidisciplinary study, we consider the question of constructing traditional social networks from OSN data and then present a measurement case study showing how the reliability of OSN data affects social network analyses. To this end we developed a systematic comparison methodology, which we applied to two parallel datasets we collected from Twitter. We found considerable differences in datasets collected with different tools and that these variations significantly alter the results of subsequent analyses. Our results lead to a set of guidelines for researchers planning to collect online data streams to infer social networks.

研究动机与目标

调查社交媒体数据采集工具的差异如何影响社会网络分析（SNA）结果的可靠性和有效性。
解决 SNA 中社交媒体数据质量评估缺乏标准化方法的问题，特别是针对采样和边界定义问题。
开发一个系统化的比较框架，以评估数据采集工具对网络级和节点级指标的影响。
为研究人员提供可操作的指南，以选择和评估社交媒体采集工具，确保数据完整性和分析可重现性。
强调由于工具特定的数据采集偏差，可能导致中心性和聚类指标的偏差或不完整网络推断风险，尤其是在中心性指标方面。

提出的方法

使用两种不同的工具——RAPID 和 Twarc——在相同的基于关键词的查询下，从 Twitter 收集了两组并行数据集。
从互动行为（提及、回复、转发）构建社会网络，以模拟信息传播和社会关系。
在每个网络上应用标准的 SNA 指标——度数、接近度、介数和特征向量中心性——以比较节点的排名。
使用统计度量（Kendall’s τ 和 Spearman’s ρ）量化 RAPID 和 Twarc 数据集之间中心性排名的相似性。
使用调整兰德指数（ARI）进行聚类分析，比较不同数据集中最大连通组件的相似性。
在不同时间窗口（4 小时 vs. 15 小时）进行两阶段案例研究，以评估时间因素和工具使用对网络结构及数据完整性的影响。

实验结果

研究问题

RQ1数据采集工具的差异（如 RAPID 与 Twarc）如何影响从社交媒体数据中推导出的社会网络结构？
RQ2所收集数据的差异（如推文数量、提及频率、唯一用户数）在多大程度上改变了社会网络分析中的中心性排名？
RQ3数据采集工具的偏差在多大程度上影响了在线讨论中关键人物的识别？
RQ4在不同数据采集方法和时间窗口下，网络聚类（如最大连通组件）的稳定性如何？
RQ5数据采集的变异性对社交媒体研究结果的可重现性和有效性有何影响？

主要发现

Twarc 收集的推文显著更多（第一部分为 11,480 条唯一推文），比 RAPID 多 34% 的唯一账号，导致网络结构更大、更复杂。
Twarc 的提及网络中边的数量（边数更高）显著多于 RAPID，尤其在第一部分，这直接影响了节点的中心性排名。
Kendall’s τ 和 Spearman’s ρ 系数显示，RAPID 和 Twarc 之间的中心性排名相似性较低，尤其是度数和接近度中心性，表明对采集方法高度敏感。
介数和特征向量中心性在不同工具之间更稳定，表明全局网络结构受局部边变化的影响小于局部中心性度量。
在第二部分，回复和转发的最大聚类在两工具间最为相似（ARI = 0.756 和 0.738），可能是因为 15 小时的采集窗口提高了数据一致性。
在第一部分，提及网络聚类的相似性较低（ARI = 0.320 和 0.350），可能是因为 RAPID 的关键词扩展策略收集了非目标账号的帖子，引入了噪声和结构偏差。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。