Skip to main content
QUICK REVIEW

[论文解读] Text Analysis of ETDs in ProQuest Dissertations and Theses (PQDT) Global (2016-2018)

Manika Lamba|arXiv (Cornell University)|Nov 6, 2019
Ideological and Political Education被引用 1
一句话总结

本研究将潜在狄利克雷分配(LDA)主题建模与支持向量机(SVM)预测建模应用于 PQDT Global(2016–2018)的263篇图书馆学与信息科学(LIS)学位论文,识别出五个核心主题——图书史、中小学图书馆馆员、公共图书馆、传播生态学和信息学,并利用训练好的模型对未来的学位论文分类实现了100%的预测准确率。

ABSTRACT

The information explosion in the form of ETDs poses the challenge of management and extraction of appropriate knowledge for decision making. Thus, the present study forwards a solution to the above problem by applying topic mining and prediction modeling tools to 263 ETDs submitted to the PQDT Global database during 2016-18 in the field of library science. This study was divided into two phases. The first phase determined the core topics from the ETDs using Topic-Modeling-Tool (TMT), which was based on latent dirichlet allocation (LDA), whereas the second phase employed prediction analysis using RapidMiner platform to annotate the future research articles on the basis of the modeled topics. The core topics (tags) for the studied period were found to be book history, school librarian, public library, communicative ecology, and informatics followed by text network and trend analysis on the high probability co-occurred words. Lastly, a prediction model using Support Vector Machine (SVM) classifier was created in order to accurately predict the placement of future ETDs going to be submitted to PQDT Global under the five modeled topics (a to e). The tested dataset against the trained data set for the predictive performed perfectly.

研究动机与目标

  • 揭示2016至2018年提交至PQDT Global的LIS学位论文中隐藏的主题模式。
  • 通过文本网络分析与趋势分析,分析高频词汇的共现趋势。
  • 开发一种预测模型,以准确地将未来的学位论文分类到预设的主题类别中。
  • 通过用基于概念的主题标签替代基于关键词的搜索,提升学位论文数据库中的信息检索效果。
  • 应对在快速增长的学位论文语料库中管理与提取知识所面临的挑战。

提出的方法

  • 基于潜在狄利克雷分配(LDA)的Applied Topic Modeling Toolkit(TMT)用于从263篇LIS学位论文中提取五个核心主题。
  • 对高概率共现词汇进行文本网络分析与趋势分析,以可视化主题关系。
  • 使用RapidMiner平台在70%的数据集(184篇学位论文)上训练支持向量机(SVM)分类器,用于主题预测。
  • 采用分割验证技术将数据集划分为70%的训练集与30%的测试集。
  • 通过kappa系数、精确率与召回率指标在测试集上评估模型性能。
  • 在LDA之后,人工解读并标注主题,以确保主题的一致性与相关性。

实验结果

研究问题

  • RQ12016至2018年提交至PQDT Global的LIS学位论文中,主导的潜在主题是什么?
  • RQ2高频词汇如何共现?文本网络分析与趋势分析揭示了哪些主题关系?
  • RQ3基于先前建模的主题,机器学习模型能否准确预测未来学位论文的主题分类?
  • RQ4与传统的元数据搜索相比,主题建模在学位论文数据库中的信息检索方面提升了多少?
  • RQ5在LIS学位论文语料库中应用LDA与预测建模时,存在哪些局限性?

主要发现

  • 在LIS学位论文中识别出的五个核心主题为:图书史、中小学图书馆馆员、公共图书馆、传播生态学和信息学。
  • 文本网络分析揭示了显著的共现模式,例如“library”与“school”、“book”和“history”共现,以及“information”与“research”和“literacy”共现。
  • 基于SVM的预测模型在测试集上表现完美,对学位论文在五个建模主题中的分类准确率达到100%。
  • 高频词汇如“library”(出现643次)、“information”(594次)和“research”(406次)构成了语料库主题结构的核心。
  • 本研究证明,主题建模与预测建模能显著提升学位论文存储库中的主题搜索与检索效果。
  • 尽管准确率很高,但该模型的性能受限于用于训练的语料库规模相对较小且缺乏代表性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。