Skip to main content
QUICK REVIEW

[论文解读] Understanding Types of Users on Twitter

Muhammad Moeen Uddin, Muhammad Imran|arXiv (Cornell University)|Jun 5, 2014
Spam and Phishing Detection被引用 24
一句话总结

本文提出了一种监督式机器学习方法,利用资料档元数据和发文行为特征,将Twitter用户分类为六种不同类型——个人、专业、商业、垃圾/广告、资讯/新闻和病毒式/营销。该方法在所有类别中均取得超过0.93的AUC分数,表现出色,证明结合行为特征与资料档特征在Twitter用户类型识别中的有效性。

ABSTRACT

People use microblogging platforms like Twitter to involve with other users for a wide range of interests and practices. Twitter profiles run by different types of users such as humans, bots, spammers, businesses and professionals. This research work identifies six broad classes of Twitter users, and employs a supervised machine learning approach which uses a comprehensive set of features to classify users into the identified classes. For this purpose, we exploit users' profile and tweeting behavior information. We evaluate our approach by performing 10-fold cross validation using manually annotated 716 different Twitter profiles. High classification accuracy (measured using AUC, and precision, recall) reveals the significance of the proposed approach.

研究动机与目标

  • 基于资料档与行为特征,识别并分类Twitter用户的不同类型。
  • 开发一种机器学习框架,利用全面的特征集自动将用户分类为预定义类型。
  • 评估资料档特征与发文行为特征在区分Twitter用户类型方面的有效性。
  • 为营销人员、组织和研究人员提供精准用户分类的基础,以实现针对性的社交媒体互动。

提出的方法

  • 通过对手动分析716个随机选取的Twitter资料档,识别出六类用户。
  • 提取了17项综合特征,包括资料档属性(如个人简介、网站、创建时间)和行为指标(如转发频率、回复率、列表参与度)。
  • 特征涵盖时间模式(如每周发文频率)、网络指标(如关注者数、列表数)以及影响力度量(如通过关注者数、点赞数与列表数之和计算的集体影响力)。
  • 使用10折交叉验证,基于人工标注数据,训练采用装袋法的随机森林分类器。
  • 在训练前对特征值进行归一化处理,以确保不同特征间尺度一致。
  • 性能评估采用精确率、召回率、F1值与AUC,由于AUC在类别不平衡情况下更具鲁棒性,故将其作为主要评估指标。

实验结果

研究问题

  • RQ1基于资料档与行为特征,Twitter上存在哪些明确的用户类型?
  • RQ2哪些资料档与发文行为特征的组合最能有效区分Twitter上的不同用户类别?
  • RQ3监督式机器学习模型在使用这些特征时,对Twitter用户进行预定义类型分类的准确度如何?
  • RQ4分类性能在不同用户类别间的表现如何,特别是对低频出现类别的表现如何?

主要发现

  • 所提出的模型实现了高分类准确率,所有六类用户的AUC分数均超过0.93。
  • 商业用户类别取得最高AUC(0.990),其次为专业用户(0.970),表明对这两类用户的判别性能极强。
  • 垃圾/广告与资讯/新闻用户类别的AUC分别为0.936与0.934,略低但仍具稳健性,反映出这两类用户区分的挑战性。
  • 专业与商业用户类别的精确率超过0.87,召回率超过0.93,表明对这两类用户的识别具有高度可靠性。
  • 模型在资讯/新闻类别上的表现较弱,F1值仅为0.468,提示该类别可能存在特征模糊或重叠问题。
  • 总体而言,分类器展现出强大的泛化能力,所有类别均取得高AUC,验证了所选特征集的重要意义。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。