[论文解读] Discovering Emerging Topics in Social Streams via Link Anomaly Detection
本文提出了一种链接异常检测框架,通过将用户提及行为建模为概率过程,进而利用SDNML和Kleinberg的突发模型检测提及模式中的异常,从而识别社交媒体流中的新兴话题。该方法在关键词模糊或定义不明确时,能比基于关键词频率的方法更早检测到话题,如在真实Twitter数据集上的实验所示。
Detection of emerging topics are now receiving renewed interest motivated by the rapid growth of social networks. Conventional term-frequency-based approaches may not be appropriate in this context, because the information exchanged are not only texts but also images, URLs, and videos. We focus on the social aspects of theses networks. That is, the links between users that are generated dynamically intentionally or unintentionally through replies, mentions, and retweets. We propose a probability model of the mentioning behaviour of a social network user, and propose to detect the emergence of a new topic from the anomaly measured through the model. We combine the proposed mention anomaly score with a recently proposed change-point detection technique based on the Sequentially Discounting Normalized Maximum Likelihood (SDNML), or with Kleinberg's burst model. Aggregating anomaly scores from hundreds of users, we show that we can detect emerging topics only based on the reply/mention relationships in social network posts. We demonstrate our technique in a number of real data sets we gathered from Twitter. The experiments show that the proposed mention-anomaly-based approaches can detect new topics at least as early as the conventional term-frequency-based approach, and sometimes much earlier when the keyword is ill-defined.
研究动机与目标
- 解决基于词频的主题检测在社交媒体中的局限性,其中内容通常非文本化(例如图片、URL、视频)。
- 通过利用社交网络结构,克服基于文本的主题检测中固有的关键词歧义和预处理挑战。
- 通过将用户提及行为建模为概率异常检测问题,实现比传统方法更早检测到新兴话题。
- 开发一种可扩展的内容无关方法,无论消息内容类型如何,仅依赖于提及(链接)模式即可运行。
提出的方法
- 提出一种用户提及行为的概率模型,以捕捉每篇帖子的提及数量以及被提及用户出现的频率。
- 基于所提出的概率模型,计算每个用户与其正常提及行为偏离程度的提及异常得分。
- 将数百名用户的异常得分聚合,形成集体提及行为的时间序列。
- 应用序列折扣归一化最大似然(SDNML)编码,检测聚合异常时间序列中的变化点。
- 将异常得分与Kleinberg的突发检测模型结合,识别指示话题出现的突发模式。
- 使用基于显著性水平ρ的动态优化阈值,控制变化点检测中的误报率。
实验结果
研究问题
- RQ1是否可以不依赖文本内容或预定义关键词,仅通过社交媒体中的提及模式检测到新兴话题?
- RQ2在关键词模糊的情况下,基于链接异常的检测方法与基于关键词频率的方法相比,检测延迟如何?
- RQ3当关键词在初期未被明确定义时,所提出的方法是否能比传统方法更早检测到话题的出现?
- RQ4将提及异常得分与变化点检测相结合,在多大程度上提升了主题检测的准确性和及时性?
主要发现
- 在全部四个真实Twitter数据集中,所提出的基于链接异常的方法检测到新兴话题的时间至少与基于关键词频率的方法一样早。
- 在'NASA'数据集中,尽管'arsenic'一词频率较低,该方法仍因捕捉到官方发布前的早期提及,而比基于关键词的方法更早检测到该话题。
- 在'BBC'数据集中,基于链接异常的方法检测到了第一次讨论突发(使用多样化术语的初始反应),而基于关键词的方法仅检测到第二次突发(统一关键词使用)。
- 当ρ = 0.05时,该方法在'NASA'数据集中产生了14次报警,其中大多数与新兴话题相关,表明尽管灵敏度较高,但误报率较低。
- 该方法在检测关键词模糊或动态演变的主题时,优于基于关键词的方法,证明了其在真实、嘈杂的社交媒体环境中的鲁棒性。
- 该框架与内容无关,可通过仅依赖提及链接,应用于非文本内容(如图片、视频),具有广泛适用性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。