QUICK REVIEW

[논문 리뷰] Text Analysis of ETDs in ProQuest Dissertations and Theses (PQDT) Global (2016-2018)

Manika Lamba|arXiv (Cornell University)|2019. 11. 06.

Ideological and Political Education인용 수 1

한 줄 요약

이 연구는 2016–2018년도 PQDT 글로벌에서 제공한 263편의 라이브러리 및 정보 과학(LIS) 논문(ETD)에 은닉 딜리클라우드 할당(LDA) 주제 모델링과 서포트 벡터 머신(SVM) 예측 모델링을 적용하여 다섯 가지 핵심 주제—서사사진, 학교 라이브러리사, 공공 라이브러리, 의사소통 생태계, 정보학—을 식별하고, 훈련된 모델을 사용해 향후 ETD 분류에 대해 완벽한 예측 정확도를 달성하였다.

ABSTRACT

The information explosion in the form of ETDs poses the challenge of management and extraction of appropriate knowledge for decision making. Thus, the present study forwards a solution to the above problem by applying topic mining and prediction modeling tools to 263 ETDs submitted to the PQDT Global database during 2016-18 in the field of library science. This study was divided into two phases. The first phase determined the core topics from the ETDs using Topic-Modeling-Tool (TMT), which was based on latent dirichlet allocation (LDA), whereas the second phase employed prediction analysis using RapidMiner platform to annotate the future research articles on the basis of the modeled topics. The core topics (tags) for the studied period were found to be book history, school librarian, public library, communicative ecology, and informatics followed by text network and trend analysis on the high probability co-occurred words. Lastly, a prediction model using Support Vector Machine (SVM) classifier was created in order to accurately predict the placement of future ETDs going to be submitted to PQDT Global under the five modeled topics (a to e). The tested dataset against the trained data set for the predictive performed perfectly.

연구 동기 및 목표

2016년에서 2018년 사이에 PQDT 글로벌에 제출된 LIS ETD에 숨겨진 주제 패턴을 밝혀내기 위해.
텍스트 네트워크 및 추세 분석을 통해 고빈도어휘의 동시 발생 추세를 분석하기 위해.
미리 정의된 주제 범주로 향후 ETD를 정확하게 분류할 수 있는 예측 모델을 개발하기 위해.
키워드 기반 검색을 개념 기반 주제 태깅으로 대체함으로써 ETD 데이터베이스의 정보 검색을 향상시키기 위해.
급격히 증가하는 ETD 코퍼스에서 지식을 관리하고 추출하는 데 도전 과제를 해결하기 위해.

제안 방법

은닉 딜리클라우드 할당(LDA) 기반의 주제 모델링 툴킷(TMT)을 적용하여 263편의 LIS ETD에서 다섯 가지 핵심 주제를 추출하였다.
주요 확률을 가진 동시 발생 어휘에 대해 텍스트 네트워크 및 추세 분석을 수행하여 주제 간 관계를 시각화하였다.
70%의 데이터셋(184편의 ETD)을 훈련용으로 사용하여 RapidMiner 플랫폼을 통해 서포트 벡터 머신(SVM) 분류기 모델을 훈련시켰다.
분할 검증 기법을 사용하여 데이터셋을 70% 훈련 세트와 30% 테스트 세트로 분할하였다.
테스트 세트에서 카파, 정밀도, 재현율 지표를 사용하여 모델 성능을 평가하였다.
LDA 후 주제를 수동으로 해석하고 레이블링하여 주제의 일관성과 관련성을 확보하였다.

실험 결과

연구 질문

RQ12016년에서 2018년 사이에 PQDT 글로벌에 제출된 LIS ETD에서 지배적인 은닉 주제는 무엇인가?
RQ2고빈도어휘는 어떻게 동시 발생하며, 텍스트 네트워크 및 추세 분석을 통해 어떤 주제적 관계가 드러나는가?
RQ3기존에 모델링된 주제를 바탕으로 기계 학습 모델이 향후 ETD의 주제 분류를 정확하게 예측할 수 있는가?
RQ4기존 메타데이터 기반 검색과 비교했을 때 주제 모델링은 ETD 데이터베이스의 정보 검색에 어느 정도 향상시키는가?
RQ5LDA와 예측 모델링이 ETD 코퍼스에 적용되었을 때의 한계는 무엇인가?

주요 결과

LIS ETD에서 식별된 다섯 가지 핵심 주제는 서사사진, 학교 라이브러리사, 공공 라이브러리, 의사소통 생태계, 정보학이었다.
텍스트 네트워크 분석은 '라이브러리'가 '학교', '책', '역사'와 강하게 동시 발생하는가 하면, '정보'가 '연구'와 '리터러시'와 함께 빈번히 공현하는 패턴을 확인하였다.
SVM 기반 예측 모델은 테스트 세트에서 완벽한 성능을 보였으며, 모델링된 다섯 가지 주제로 ETD를 분류하는 데 100% 정확도를 달성하였다.
고빈도어휘인 '라이브러리'(643회 발생), '정보'(594회), '연구'(406회)는 코퍼스의 주제적 구조에서 중심적인 역할을 하였다.
이 연구는 주제 모델링과 예측 모델링이 ETD 저장소에서 주제 기반 검색과 검색 성능을 크게 향상시킨다는 것을 입증하였다.
높은 정확도에도 불구하고, 훈련용으로 사용된 데이터셋의 크기가 상대적으로 작고 대표성이 부족하여 모델의 성능이 제한되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.