Skip to main content
QUICK REVIEW

[论文解读] Predicting the future relevance of research institutions - The winning solution of the KDD Cup 2016

Vlad Sandulescu, Mihai Chiru|arXiv (Cornell University)|Sep 9, 2016
Delphi Technique in Research参考文献 1被引用 49
一句话总结

本文展示了KDD Cup 2016的获胜解决方案,通过预测顶级会议中被接受的完整论文数量,来预测未来研究机构的相关性。利用Microsoft Academic Graph(MAG),作者采用特征工程和梯度提升决策树方法,超越了基线概率模型,在比赛中取得了最高总体排名。

ABSTRACT

The world's collective knowledge is evolving through research and new scientific discoveries. It is becoming increasingly difficult to objectively rank the impact research institutes have on global advancements. However, since the funding, governmental support, staff and students quality all mirror the projected quality of the institution, it becomes essential to measure the affiliation's rating in a transparent and widely accepted way. We propose and investigate several methods to rank affiliations based on the number of their accepted papers at future academic conferences. We carry out our investigation using publicly available datasets such as the Microsoft Academic Graph, a heterogeneous graph which contains various information about academic papers. We analyze several models, starting with a simple probabilities-based method and then gradually expand our training dataset, engineer many more features and use mixed models and gradient boosted decision trees models to improve our predictions.

研究动机与目标

  • 开发一种透明、数据驱动的方法,基于研究机构的历史发表记录,预测其未来影响力。
  • 解决如何客观地根据其在主要学术会议中的预期影响力,对机构进行排名的挑战。
  • 通过利用Microsoft Academic Graph中的时间趋势和演变的引用模式,提升预测准确性。
  • 在多个比赛阶段系统地评估和调整特征集与模型,以最大化NDCG@20性能。
  • 建立一个可扩展且可泛化的框架,利用公开的学术数据预测机构的研究相关性。

提出的方法

  • 使用2016年2月的Microsoft Academic Graph(MAG)版本构建数据集,包含2000至2015年间论文、作者、机构、引用和关键词信息。
  • 提取2011至2015年间,每个会议(如KDD、SIGIR等)前20所机构的历史论文录用记录,以建模其过去的相关性。
  • 构建基于时间窗口的特征,如滚动均值、中位数、标准差以及指数加权移动平均,用于过去相关性评分的分析。
  • 引入趋势特征,包括漂移趋势(dt)和指数平滑(es),以捕捉机构表现的长期与短期动态。
  • 在工程化特征上训练梯度提升决策树(GBDT)模型,并通过多种配置的超参数调优,以优化NDCG@20性能。
  • 使用NDCG@20评估模型性能,并在所有比赛阶段与基于简单概率的基线模型进行对比。

实验结果

研究问题

  • RQ1在顶级会议中的历史发表趋势是否能可靠地预测机构在未来会议中的相关性?
  • RQ2不同的时间特征工程策略(如滚动窗口、指数平滑)如何影响预测准确性?
  • RQ3长期机构贡献与短期趋势在多大程度上共同预测未来的论文录用率?
  • RQ4随着训练数据规模增大和特征集更丰富,模型性能是否在多个比赛阶段中得到提升?
  • RQ5在使用学术图数据预测机构排名时,梯度提升决策树是否能超越简单的概率基线模型?

主要发现

  • 经过仔细调优的GBDT模型在所有比赛阶段和会议中均持续优于基线概率模型。
  • 同时引入短期趋势特征(dt、es)和滚动统计特征(sw_y、w_y)显著提升了KDD、FSE和MOBICOM的预测准确性。
  • 对于MM会议,特征与目标之间存在中等程度的相关性,但GBDT模型仍实现了优于基线的NDCG@20表现。
  • FSE会议中表现最佳的特征配置为sw_y(rel) + dt(rel) + es(rel),使用5个相关会议,取得了优异结果。
  • 模型性能随时间推移持续提升,对近年的预测能力优于早期年份。
  • 最终解决方案在KDD Cup 2016中获得最高总体得分,位列最终排名首位。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。