Skip to main content
QUICK REVIEW

[论文解读] ExpFinder: An Ensemble Expert Finding Model Integrating $N$-gram Vector Space Model and $μ$CO-HITS

Yong‐Bin Kang, Hung Du|arXiv (Cornell University)|Jan 1, 2021
Expert finding and Q&A systems参考文献 39被引用 3
一句话总结

ExpFinder 是一种集成专家发现模型,通过将 $n$VSM(N-gram 向量空间模型)与一种新型基于图的 $\mu$CO-HITS 算法相结合,以提升专家检索性能。在四个学术数据集上,其性能显著优于六种基线模型,提升幅度达 19% 至 160.2%。

ABSTRACT

Finding an expert plays a crucial role in driving successful collaborations and speeding up high-quality research development and innovations. However, the rapid growth of scientific publications and digital expertise data makes identifying the right experts a challenging problem. Existing approaches for finding experts given a topic can be categorised into information retrieval techniques based on vector space models, document language models, and graph-based models. In this paper, we propose $ extit{ExpFinder}$, a new ensemble model for expert finding, that integrates a novel $N$-gram vector space model, denoted as $n$VSM, and a graph-based model, denoted as $ extit{$μ$CO-HITS}$, that is a proposed variation of the CO-HITS algorithm. The key of $n$VSM is to exploit recent inverse document frequency weighting method for $N$-gram words and $ extit{ExpFinder}$ incorporates $n$VSM into $ extit{$μ$CO-HITS}$ to achieve expert finding. We comprehensively evaluate $ extit{ExpFinder}$ on four different datasets from the academic domains in comparison with six different expert finding models. The evaluation results show that $ extit{ExpFinder}$ is a highly effective model for expert finding, substantially outperforming all the compared models in 19% to 160.2%.

研究动机与目标

  • 为应对科学出版物和数字专业知识数据迅速增长所带来的挑战,解决相关专家识别问题。
  • 克服基于向量空间模型、语言模型和基于图模型的现有专家发现方法的局限性。
  • 开发一种混合模型,结合 $n$VSM 的语义表示与 $\mu$CO-HITS 的结构关系建模,以提升准确性。
  • 在多样化的学术数据集上评估所提出的模型,并与六种成熟的专家发现模型进行性能比较。

提出的方法

  • 提出一种新型 $n$VSM,将近期的逆文档频率加权方案应用于 $N$-gram 特征,以改善文本的语义表示。
  • 引入 $\mu$CO-HITS,即 CO-HITS 算法的改进版本,通过链接分析在异质网络中建模作者-主题关系。
  • 将 $n$VSM 与 $\mu$CO-HITS 集成到一个集成框架中,通过结合两部分的得分实现最终的专家排序。
  • 采用加权融合策略,结合 $n$VSM 的语义相关性与 $\mu$CO-HITS 的结构相关性。
  • 利用作者、出版物与主题构成的异质网络,用于训练和评估 $\mu$CO-HITS 组件。
  • 在四个学术数据集上应用标准评估指标(如精确率、召回率与 F1 分数)以评估性能。

实验结果

研究问题

  • RQ1与独立模型相比,$n$VSM 与 $\mu$CO-HITS 的集成在多大程度上提升了专家发现性能?
  • RQ2所提出的 $n$VSM 在捕捉特定主题专业知识方面,相较于传统向量空间模型表现如何?
  • RQ3$\mu$CO-HITS 算法在学术引用网络中利用网络结构进行专家检索的效率如何?
  • RQ4在集成模型中,语义信号与结构信号的相对贡献分别是什么?

主要发现

  • ExpFinder 在四个学术数据集上相较于六种基线专家发现模型,性能提升达 19% 至 160.2%。
  • 通过结合语义信号与结构信号,$n$VSM 与 $\mu$CO-HITS 的集成显著提升了专家检索的准确性。
  • $n$VSM 组件通过 $N$-gram 特征与逆文档频率加权,在捕捉特定主题术语方面表现出色。
  • $\mu$CO-HITS 模型有效利用了作者-主题关系的网络结构,以识别相关专家。
  • 在所有评估数据集上,集成模型在 F1 分数、精确率与召回率方面均持续优于所有基线模型。
  • 结果表明,结合语义建模与结构建模可实现一种在学术领域中稳健且可扩展的专家发现解决方案。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。