[论文解读] Want a Good Answer? Ask a Good Question First!
本文提出 CoPs,一种联合预测社区问答(CQA)平台(如 Stack Overflow)中问题与答案质量的共预测算法族,利用问题与答案质量之间的强正相关性。通过同时建模特征、预测质量及相互依赖关系,CoPs 在数据规模上实现线性扩展的同时,将预测误差相比最先进方法降低高达 13.13%。
Community Question Answering (CQA) websites have become valuable repositories which host a massive volume of human knowledge. To maximize the utility of such knowledge, it is essential to evaluate the quality of an existing question or answer, especially soon after it is posted on the CQA website. In this paper, we study the problem of inferring the quality of questions and answers through a case study of a software CQA (Stack Overflow). Our key finding is that the quality of an answer is strongly positively correlated with that of its question. Armed with this observation, we propose a family of algorithms to jointly predict the quality of questions and answers, for both quantifying numerical quality scores and differentiating the high-quality questions/answers from those of low quality. We conduct extensive experimental evaluations to demonstrate the effectiveness and efficiency of our methods.
研究动机与目标
- 探究社区问答(CQA)平台中问题质量与答案质量之间的相关性。
- 解决现有质量预测方法将问题与答案孤立处理的局限性。
- 开发一种联合预测框架,通过利用问题与答案质量之间的相互依赖关系,提升预测准确性。
- 实现对高质量与低质量内容的早期检测,以支持更优的审核、推荐与搜索排序。
提出的方法
- 提出 CoPs,一种共预测算法族,通过共享特征与相互质量依赖关系,联合建模问题与答案。
- 在统一框架中整合数值质量评分与二分类(高质量 vs. 低质量)任务。
- 采用联合优化方法,同时预测质量评分,并基于问题与答案之间的交叉相关性优化预测结果。
- 对来自 Stack Overflow 的文本、结构及社交元数据(如声誉、编辑历史、回答数量)进行特征工程。
- 采用线性可扩展设计,确保随着问题与答案数量增加,性能仍保持高效。
- 利用人工标注的质量标签,在真实世界 CQA 数据上训练并验证模型。
实验结果
研究问题
- RQ1在 CQA 平台中,问题质量与关联答案质量之间是否存在统计显著的相关性?
- RQ2与独立预测相比,联合建模问题与答案质量是否能提升预测准确性?
- RQ3所提出的共预测框架在真实世界 CQA 数据上的有效性与效率表现如何?
- RQ4该方法在质量预测任务中常见的标签稀疏场景下,具备多大程度的适应能力?
主要发现
- 在 Stack Overflow 中,问题质量与答案质量之间存在显著正相关性,高质量问题始终吸引高质量答案。
- 所提出的 CoPs 框架在数值与二分类质量预测任务中,相比最先进方法,预测误差最高降低 13.13%。
- 该方法随问题与答案数量线性扩展,适用于大规模 CQA 平台。
- 即使在人工标注标签有限的情况下,CoPs 仍能通过利用问题与答案质量之间的依赖关系,有效缓解数据稀疏性问题。
- 联合预测显著优于独立预测模型,证实了建模相互依赖关系的价值。
- 该框架支持早期质量预测,有助于实现及时审核、专家路由与搜索排序优化。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。