QUICK REVIEW

[论文解读] Bibliographic Analysis with the Citation Network Topic Model

Kar Wai Lim, Wray Buntine|arXiv (Cornell University)|Sep 22, 2016

Topic Modeling参考文献 27被引用 32

一句话总结

本文提出引用网络主题模型（CNTM），一种非参数贝叶斯模型，通过分层Pitman-Yor过程和泊松混合主题链接建模，联合建模文档内容、作者主题偏好与引用网络。与基线模型相比，该模型在模型拟合和文档聚类方面表现更优，主题可理解性更强，并通过基于类别的合并方法实现有效的半监督作者分组。

ABSTRACT

Bibliographic analysis considers author's research areas, the citation network and paper content among other things. In this paper, we combine these three in a topic model that produces a bibliographic model of authors, topics and documents using a non-parametric extension of a combination of the Poisson mixed-topic link model and the author-topic model. We propose a novel and efficient inference algorithm for the model to explore subsets of research publications from CiteSeerX. Our model demonstrates improved performance in both model fitting and a clustering task compared to several baselines.

研究动机与目标

开发一个统一模型，联合捕捉学术出版物中的文档内容、作者主题偏好与引用网络。
解决建模具有相互依赖结构的复杂文献数据（文本、作者关系与引用链接）的挑战。
通过整合引用与作者信息，提升主题模型在模型拟合与文档聚类任务中的性能。
通过基于出版类别对低活跃度作者进行分组，实现半监督学习。
为定性分析提供可解释性强、高可理解性的主题与作者-主题偏好。

提出的方法

CNTM结合分层Pitman-Yor过程（PYP）用于主题建模，以及泊松混合主题链接模型（PMTLM）用于建模引用网络。
采用共轭先验与边际化技术，对概率向量进行积分，通过离散Gibbs采样实现高效的MCMC推断。
通过Pitman-Yor过程的非参数先验，实现灵活且数据驱动的主题发现，无需预先指定主题数量。
对作者-主题分布进行建模，使每位作者的主题偏好影响其文档的主题分布，反映其学术贡献。
推导出一种新型推断算法，在保持坍缩Gibbs采样计算效率的同时，处理引用网络结构。
将发表文献少于η篇的作者，根据其出版类别标签合并为组，以实现半监督学习。

实验结果

研究问题

RQ1统一主题模型能否比现有模型更有效地联合建模文档内容、作者主题偏好与引用网络？
RQ2整合引用网络在模型拟合与聚类准确率方面如何提升主题模型性能？
RQ3通过基于类别的合并实现的半监督作者分组，在多大程度上提升了聚类性能？
RQ4模型学习到的主题与作者-主题分布在真实文献语境下是否具有可解释性与实际意义？
RQ5所提出的推断算法是否在保持计算效率的同时，实现了对复杂文献结构的非参数建模？

主要发现

CNTM在三个CiteSeer X数据集与三个基准数据集上，相较于基线模型，表现出更优的模型拟合与聚类性能。
随着作者合并阈值η的增加，聚类性能持续提升，最优效果出现在η = 4或5，但进一步增加会导致性能下降，原因在于作者特异性信息的损失。
模型生成的主题具有高可理解性，例如通过关键词列表体现为“强化学习”、“目标识别”与“支持向量机”等。
作者-主题分布揭示了有意义的研究兴趣，如Y. Bengio专注于神经网络，D. Aerts专注于量子理论，证实了模型的可解释性。
推断算法通过积分概率向量，实现了高效的MCMC采样，同时保持了坍缩Gibbs采样的简洁性与高效性。
该模型通过在非参数框架下联合建模文本、作者与引用，优于以往方法如PMTLM与ATM。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。