QUICK REVIEW
[论文解读] The Road to Success: Assessing the Fate of Linguistic Innovations in Online Communities
Marco Del Tredici, Raquel Fernández|arXiv (Cornell University)|Jun 15, 2018
Language and cultural evolution参考文献 29被引用 26
一句话总结
本研究通过分析用户的社会角色和关系强度,探讨了网络用语等语言创新在在线社区中的传播机制。基于包含约1000万名用户的20个论坛大规模数据集,研究发现:创新者虽处于网络中心位置,但其关系强度较低;而强关系用户在传播创新中发挥关键作用;利用前6至12个月的关系强度数据,模型对创新成功的预测F1分数最高达0.76,显著优于基线模型。
ABSTRACT
We investigate the birth and diffusion of lexical innovations in a large dataset of online social communities. We build on sociolinguistic theories and focus on the relation between the spread of a novel term and the social role of the individuals who use it, uncovering characteristics of innovators and adopters. Finally, we perform a prediction task that allows us to anticipate whether an innovation will successfully spread within a community.
研究动机与目标
- 理解在线社区中词汇创新传播背后的社会动力机制。
- 检验Milroy社会语言学理论中关于弱关系与创新扩散的适用性,特别是在大规模在线数据中的表现。
- 开发一个预测模型,判断某项语言创新是否能在社区中成功传播。
- 利用关系强度与中心性度量,刻画创新者与采纳者在社会网络中的角色特征。
提出的方法
- 构建了一种新颖的、具有理论依据的关系强度度量方法,结合互动频率与网络中心性,以量化在线论坛中的社会关系。
- 分析了20个基于主题的在线论坛的纵向数据,时间跨度为4至8年,追踪了约8000项词汇创新(如缩写词、音似拼写)。
- 根据长期采纳率定义创新成功,区分那些成为社区规范的术语与最终消失的术语。
- 采用二分类任务,使用随机森林分类器,基于创新术语使用初期(前3、6或12个月)的关系强度轨迹,预测其传播成功与否。
- 进行100轮交叉验证,训练集占90%,测试集占10%,并与频率加权基线模型进行比较。
- 提取并处理互动数据、传播轨迹及用户关系强度,发布数据集与代码以确保可复现性。
实验结果
研究问题
- RQ1在在线社区中,是否那些关系较弱但网络中心性较高的用户更倾向于率先引入新的词汇术语?
- RQ2在创新被引入后,强关系用户如何促进语言创新的扩散?
- RQ3用户在引入某项术语初期的关系强度模式,能否有效预测该术语是否会在社区中成功传播?
- RQ4创新扩散的模式在不同在线社区中是否具有一致性?
- RQ5在最初数月内收集的关系强度数据,能在多大程度上预测长期的创新成功?
主要发现
- 新词汇术语的创新者在网络中处于高度中心位置,但与联系人之间的关系强度相对较低,支持了Milroy关于弱关系创新者的理论。
- 尽管强关系用户仅占社区的一小部分,但他们在创新引入后,对在小圈子内部的传播起到关键作用,可作为内部传播者。
- 仅使用前6个月的关系强度数据,模型对创新成功预测的平均F1分数达到0.68,显著高于基线的0.58。
- 随着观察窗口延长,预测性能进一步提升,当使用前1至2年术语使用的关系强度数据时,平均F1分数达到0.76。
- 在使用6个月数据时,关系强度的预测能力在20个子版块中的18个中保持一致,表明其在多样化在线社区中具有稳健性。
- 本研究证实,Milroy关于弱关系创新者与强关系传播者的理论,同样适用于大规模在线语言社区。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。