[论文解读] Bibliographic Analysis with the Citation Network Topic Model
本文提出引用网络主题模型(CNTM),一种非参数贝叶斯模型,通过分层Pitman-Yor过程和泊松混合主题链接建模,联合建模文档内容、作者主题偏好与引用网络。与基线模型相比,该模型在模型拟合和文档聚类方面表现更优,主题可理解性更强,并通过基于类别的合并方法实现有效的半监督作者分组。
Bibliographic analysis considers author's research areas, the citation network and paper content among other things. In this paper, we combine these three in a topic model that produces a bibliographic model of authors, topics and documents using a non-parametric extension of a combination of the Poisson mixed-topic link model and the author-topic model. We propose a novel and efficient inference algorithm for the model to explore subsets of research publications from CiteSeerX. Our model demonstrates improved performance in both model fitting and a clustering task compared to several baselines.
研究动机与目标
- 开发一个统一模型,联合捕捉学术出版物中的文档内容、作者主题偏好与引用网络。
- 解决建模具有相互依赖结构的复杂文献数据(文本、作者关系与引用链接)的挑战。
- 通过整合引用与作者信息,提升主题模型在模型拟合与文档聚类任务中的性能。
- 通过基于出版类别对低活跃度作者进行分组,实现半监督学习。
- 为定性分析提供可解释性强、高可理解性的主题与作者-主题偏好。
提出的方法
- CNTM结合分层Pitman-Yor过程(PYP)用于主题建模,以及泊松混合主题链接模型(PMTLM)用于建模引用网络。
- 采用共轭先验与边际化技术,对概率向量进行积分,通过离散Gibbs采样实现高效的MCMC推断。
- 通过Pitman-Yor过程的非参数先验,实现灵活且数据驱动的主题发现,无需预先指定主题数量。
- 对作者-主题分布进行建模,使每位作者的主题偏好影响其文档的主题分布,反映其学术贡献。
- 推导出一种新型推断算法,在保持坍缩Gibbs采样计算效率的同时,处理引用网络结构。
- 将发表文献少于η篇的作者,根据其出版类别标签合并为组,以实现半监督学习。
实验结果
研究问题
- RQ1统一主题模型能否比现有模型更有效地联合建模文档内容、作者主题偏好与引用网络?
- RQ2整合引用网络在模型拟合与聚类准确率方面如何提升主题模型性能?
- RQ3通过基于类别的合并实现的半监督作者分组,在多大程度上提升了聚类性能?
- RQ4模型学习到的主题与作者-主题分布在真实文献语境下是否具有可解释性与实际意义?
- RQ5所提出的推断算法是否在保持计算效率的同时,实现了对复杂文献结构的非参数建模?
主要发现
- CNTM在三个CiteSeer X数据集与三个基准数据集上,相较于基线模型,表现出更优的模型拟合与聚类性能。
- 随着作者合并阈值η的增加,聚类性能持续提升,最优效果出现在η = 4或5,但进一步增加会导致性能下降,原因在于作者特异性信息的损失。
- 模型生成的主题具有高可理解性,例如通过关键词列表体现为“强化学习”、“目标识别”与“支持向量机”等。
- 作者-主题分布揭示了有意义的研究兴趣,如Y. Bengio专注于神经网络,D. Aerts专注于量子理论,证实了模型的可解释性。
- 推断算法通过积分概率向量,实现了高效的MCMC采样,同时保持了坍缩Gibbs采样的简洁性与高效性。
- 该模型通过在非参数框架下联合建模文本、作者与引用,优于以往方法如PMTLM与ATM。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。