Skip to main content
QUICK REVIEW

[論文レビュー] Text Analysis of ETDs in ProQuest Dissertations and Theses (PQDT) Global (2016-2018)

Manika Lamba|arXiv (Cornell University)|Nov 6, 2019
Ideological and Political Education被引用数 1
ひとこと要約

本研究では、2016–2018年のPQDT Globalから提供された263件の図書館学・情報科学(LIS)修士論文(ETD)に対して、潜在ディリクレ配分(LDA)トピックモデリングとサポートベクターマシン(SVM)予測モデリングを適用し、5つのコアトピック—書籍史、学校図書館司書、図書館、コミュニケーションエコロジー、情報学—を特定。訓練済みモデルを用いて将来のETD分類に100%の予測精度を達成した。

ABSTRACT

The information explosion in the form of ETDs poses the challenge of management and extraction of appropriate knowledge for decision making. Thus, the present study forwards a solution to the above problem by applying topic mining and prediction modeling tools to 263 ETDs submitted to the PQDT Global database during 2016-18 in the field of library science. This study was divided into two phases. The first phase determined the core topics from the ETDs using Topic-Modeling-Tool (TMT), which was based on latent dirichlet allocation (LDA), whereas the second phase employed prediction analysis using RapidMiner platform to annotate the future research articles on the basis of the modeled topics. The core topics (tags) for the studied period were found to be book history, school librarian, public library, communicative ecology, and informatics followed by text network and trend analysis on the high probability co-occurred words. Lastly, a prediction model using Support Vector Machine (SVM) classifier was created in order to accurately predict the placement of future ETDs going to be submitted to PQDT Global under the five modeled topics (a to e). The tested dataset against the trained data set for the predictive performed perfectly.

研究の動機と目的

  • 2016年から2018年までのPQDT Globalに提出されたLIS ETDに隠れたトピック的パターンを特定すること。
  • テキストネットワーク分析およびトレンド分析を用いて、高頻度語の共起傾向を分析すること。
  • 将来のETDを事前に定義されたテーマ別カテゴリに正確に分類する予測モデルを開発すること。
  • キーワードベースの検索からコンセプトベースのテーマタグ付けに置き換えることで、ETDデータベースにおける情報検索を向上させること。
  • 急増するETDコーパスからの管理および知識抽出の課題に対処すること。

提案手法

  • 263件のLIS ETDから5つのコアトピックを抽出するために、潜在ディリクレ配分(LDA)に基づくTopic Modeling Toolkit(TMT)を適用。
  • 高確率で共起する語のテキストネットワーク分析およびトレンド分析を実施し、テーマ的関係を可視化。
  • 70%のデータセット(184件のETD)を用いてRapidMinerプラットフォームでサポートベクターマシン(SVM)分類器を訓練。
  • 分割検証手法を用いて、データセットを70%の訓練用と30%のテスト用に分割。
  • テストセット上でカッパ係数、適合率、再現率の指標を用いてモデルのパフォーマンスを評価。
  • LDA後の手動によるトピックの解釈およびラベル付けを通じて、テーマの一貫性と関連性を確保。

実験結果

リサーチクエスチョン

  • RQ12016年から2018年までのPQDT Globalに提出されたLIS ETDに、どのような支配的かつ隠れたトピックが存在するか?
  • RQ2高頻度語はどのように共起し、テキストネットワーク分析およびトレンド分析からどのようなテーマ的関係が浮き彫りになるか?
  • RQ3事前にモデリングされたトピックに基づいて、機械学習モデルが将来のETDのテーマ分類を正確に予測できるか?
  • RQ4従来のメタデータ検索と比較して、トピックモデリングはETDデータベースにおける情報検索をどの程度向上させるか?
  • RQ5LDAおよび予測モデリングをETDコーパスに適用する際の限界は何か?

主な発見

  • LIS ETDで特定された5つのコアトピックは、書籍史、学校図書館司書、図書館、コミュニケーションエコロジー、情報学であった。
  • テキストネットワーク分析により、『図書館』と『学校』『本』『歴史』、『情報』と『研究』『リテラシー』の強い共起パターンが明らかになった。
  • SVMベースの予測モデルはテストセットで完璧なパフォーマンスを示し、5つのモデリング済みトピックにETDを分類する際、100%の正確性を達成した。
  • 『図書館』(643件)、『情報』(594件)、『研究』(406件)といった高頻度語が、コーパスのテーマ的構造の中心的役割を果たしていた。
  • 本研究では、トピックモデリングと予測モデリングがETDリポジトリにおけるテーマ検索および検索の質を顕著に向上させることを示した。
  • 高い正確性にもかかわらず、モデルのパフォーマンスは、訓練用に使用されたデータセットが比較的小さく、代表的でないことが制限要因となった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。