[论文解读] Characterizing and curating conversation threads: Expansion, focus, volume, re-entry
本文提出基于学习的方法,利用网络结构、评论时间与用户独特性等特征,预测在线讨论中的话题线程长度及用户重新参与情况。研究发现长线程存在双峰分布——要么是聚焦型(少数活跃用户),要么是扩展型(大量一次性评论者)。使用这些特征后,线程长度与用户重新参与预测性能显著提升,尤其在Facebook和Wikipedia数据上表现突出。
Discussion threads form a central part of the experience on many Web sites, including social networking sites such as Facebook and Google Plus and knowledge creation sites such as Wikipedia. To help users manage the challenge of allocating their attention among the discussions that are relevant to them, there has been a growing need for the algorithmic curation of on-line conversations --- the development of automated methods to select a subset of discussions to present to a user. Here we consider two key sub-problems inherent in conversational curation: length prediction --- predicting the number of comments a discussion thread will receive --- and the novel task of re-entry prediction --- predicting whether a user who has participated in a thread will later contribute another comment to it. The first of these sub-problems arises in estimating how interesting a thread is, in the sense of generating a lot of conversation; the second can help determine whether users should be kept notified of the progress of a thread to which they have already contributed. We develop and evaluate a range of approaches for these tasks, based on an analysis of the network structure and arrival pattern among the participants, as well as a novel dichotomy in the structure of long threads. We find that for both tasks, learning-based approaches using these sources of information yield improvements for all the performance metrics we used.
研究动机与目标
- 为解决在线讨论线程内容筛选的挑战,识别用户注意力管理中的关键子问题。
- 形式化并解决两个核心问题:预测线程长度(作为参与度的代理指标)以及预测用户在初始参与后是否会重新参与线程。
- 理解长线程中结构二分性——聚焦型(少数活跃用户)与扩展型(大量一次性评论者)——及其对内容筛选的影响。
- 开发并评估基于学习的模型,结合网络、时间与语言特征,以提升预测性能。
- 通过识别可能引发持续兴趣的线程及可能返回的用户,实现更优的讨论信息流算法筛选。
提出的方法
- 分析Facebook与Wikipedia的讨论线程,识别不同评论者数量的双峰分布,区分聚焦型与扩展型线程。
- 利用评论到达模式、参与者之间的网络结构以及文本独特性(基于一元语言模型)等特征,建模线程长度预测。
- 通过测量首位评论者的独特性(即其作为某用户帖子首位评论者的频率)来预测重新参与,使用用户层级频率统计。
- 采用基于学习的方法(如逻辑回归或类似模型)结合结构、时间与语言特征,完成两项预测任务。
- 使用Facebook与Wikipedia的真实数据集,通过宏观平均性能指标评估模型表现。
- 引入用户重复参与模式与帖子文本稀有性(词语的对数概率)等特征,捕捉线程演化的社交与语言信号。
实验结果
研究问题
- RQ1长讨论线程是否自然地分为两类结构类型:聚焦型(少数活跃用户)或扩展型(大量一次性评论者),还是这只是认知偏见?
- RQ2早期特征(如网络结构、评论时间与文本独特性)能否有效预测讨论线程的最终长度?
- RQ3能否基于用户首次评论的独特性及其先前互动模式,预测其重新参与线程的可能性?
- RQ4语言特征(如帖子中词语的稀有性)与线程长度有何相关性?这种相关性在Facebook与Wikipedia等平台间是否存在差异?
- RQ5用户层级模式(如某用户作为特定发帖人首位评论者的频率)在多大程度上可预测线程持续时间与用户重新参与?
主要发现
- 长讨论线程在不同评论者数量上表现出真实的双峰分布,证实了聚焦型与扩展型线程之间的结构性二分性。
- 在Facebook上,语言上更具独特性的文本(在一元语言模型中概率较低)可预测更长的线程,而Wikipedia则无此效应,可能因任务导向的讨论风格所致。
- 在Facebook上,若首位评论者极少是某用户帖子的首位回复者(即独特性极高),则与更长的线程显著相关,表明其具有更广传播范围或新颖性。
- 在Wikipedia上,观察到相反趋势:频繁作为首位评论者的用户与更长的线程相关,表明平台特有的动态机制。
- 当使用首位评论者独特性时,重新参与预测性能显著提升,Facebook上对罕见首位评论者,线程长度呈现明显上升趋势。
- 基于网络结构、时间模式与语言特征的学习模型,在所有性能指标上均优于基线方法,适用于线程长度与重新参与预测。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。