Skip to main content
QUICK REVIEW

[论文解读] Bibliographic Analysis with the Citation Network Topic Model

Kar Wai Lim, Wray Buntine|arXiv (Cornell University)|Sep 22, 2016
Topic Modeling参考文献 27被引用 32
一句话总结

本文提出引用网络主题模型(CNTM),一种非参数贝叶斯模型,通过分层Pitman-Yor过程和泊松混合主题链接建模,联合建模文档内容、作者主题偏好与引用网络。与基线模型相比,该模型在模型拟合和文档聚类方面表现更优,主题可理解性更强,并通过基于类别的合并方法实现有效的半监督作者分组。

ABSTRACT

Bibliographic analysis considers author's research areas, the citation network and paper content among other things. In this paper, we combine these three in a topic model that produces a bibliographic model of authors, topics and documents using a non-parametric extension of a combination of the Poisson mixed-topic link model and the author-topic model. We propose a novel and efficient inference algorithm for the model to explore subsets of research publications from CiteSeerX. Our model demonstrates improved performance in both model fitting and a clustering task compared to several baselines.

研究动机与目标

  • 开发一个统一模型,联合捕捉学术出版物中的文档内容、作者主题偏好与引用网络。
  • 解决建模具有相互依赖结构的复杂文献数据(文本、作者关系与引用链接)的挑战。
  • 通过整合引用与作者信息,提升主题模型在模型拟合与文档聚类任务中的性能。
  • 通过基于出版类别对低活跃度作者进行分组,实现半监督学习。
  • 为定性分析提供可解释性强、高可理解性的主题与作者-主题偏好。

提出的方法

  • CNTM结合分层Pitman-Yor过程(PYP)用于主题建模,以及泊松混合主题链接模型(PMTLM)用于建模引用网络。
  • 采用共轭先验与边际化技术,对概率向量进行积分,通过离散Gibbs采样实现高效的MCMC推断。
  • 通过Pitman-Yor过程的非参数先验,实现灵活且数据驱动的主题发现,无需预先指定主题数量。
  • 对作者-主题分布进行建模,使每位作者的主题偏好影响其文档的主题分布,反映其学术贡献。
  • 推导出一种新型推断算法,在保持坍缩Gibbs采样计算效率的同时,处理引用网络结构。
  • 将发表文献少于η篇的作者,根据其出版类别标签合并为组,以实现半监督学习。

实验结果

研究问题

  • RQ1统一主题模型能否比现有模型更有效地联合建模文档内容、作者主题偏好与引用网络?
  • RQ2整合引用网络在模型拟合与聚类准确率方面如何提升主题模型性能?
  • RQ3通过基于类别的合并实现的半监督作者分组,在多大程度上提升了聚类性能?
  • RQ4模型学习到的主题与作者-主题分布在真实文献语境下是否具有可解释性与实际意义?
  • RQ5所提出的推断算法是否在保持计算效率的同时,实现了对复杂文献结构的非参数建模?

主要发现

  • CNTM在三个CiteSeer X数据集与三个基准数据集上,相较于基线模型,表现出更优的模型拟合与聚类性能。
  • 随着作者合并阈值η的增加,聚类性能持续提升,最优效果出现在η = 4或5,但进一步增加会导致性能下降,原因在于作者特异性信息的损失。
  • 模型生成的主题具有高可理解性,例如通过关键词列表体现为“强化学习”、“目标识别”与“支持向量机”等。
  • 作者-主题分布揭示了有意义的研究兴趣,如Y. Bengio专注于神经网络,D. Aerts专注于量子理论,证实了模型的可解释性。
  • 推断算法通过积分概率向量,实现了高效的MCMC采样,同时保持了坍缩Gibbs采样的简洁性与高效性。
  • 该模型通过在非参数框架下联合建模文本、作者与引用,优于以往方法如PMTLM与ATM。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。