Skip to main content
QUICK REVIEW

[논문 리뷰] Keyword Assisted Topic Models

Shusei Eshima, Kosuke Imai|arXiv (Cornell University)|2020. 04. 13.
Computational and Text Analysis Methods참고 문헌 52인용 수 33
한 줄 요약

논문은 interpretability와 측정치를 개선하기 위해 소수의 키워드를 사용하는 반지도 학습 주제 모델 keyATM 을 소개하며, 키워드 없는 주제, 공변량 및 시계열 추세를 지원한다.

ABSTRACT

In recent years, fully automated content analysis based on probabilistic topic models has become popular among social scientists because of their scalability. The unsupervised nature of the models makes them suitable for exploring topics in a corpus without prior knowledge. However, researchers find that these models often fail to measure specific concepts of substantive interest by inadvertently creating multiple topics with similar content and combining distinct themes into a single topic. In this paper, we empirically demonstrate that providing a small number of keywords can substantially enhance the measurement performance of topic models. An important advantage of the proposed keyword assisted topic model (keyATM) is that the specification of keywords requires researchers to label topics prior to fitting a model to the data. This contrasts with a widespread practice of post-hoc topic interpretation and adjustments that compromises the objectivity of empirical findings. In our application, we find that keyATM provides more interpretable results, has better document classification performance, and is less sensitive to the number of topics than the standard topic models. Finally, we show that keyATM can also incorporate covariates and model time trends. An open-source software package is available for implementing the proposed methodology.

연구 동기 및 목표

  • 주제 모델을 활용한 자동 콘텐츠 분석에서 향상된 측정의 필요성을 제기한다.
  • 각 주제에 대해 소수의 키워드를 포함하는 반지도 학습 주제 모델(keyATM)을 제안한다.
  • 키워드가 없는 주제를 허용하고 문서 공변량과 시간 추세를 모델링하도록 기본 모델을 확장한다.
  • 키워드 통합이 비지도 기준선보다 더 해석 가능하고 더 나은 분류 성능을 낳음을 입증한다.

제안 방법

  • K-주제 모델 내에서 키워드 주제와 비키워드 주제의 두 가지 주제 유형 구조를 정의한다.
  • 키워드 주제의 경우 단어가 키워드로부터 나오는지 아니면 표준 주제-단어 분포로부터 나오는지 결정하기 위해 Bernoulli s_di 를 도입한다.
  • 주제-단어 분포와 키워드-단어 분포에 Dirichlet 사전분포를 사용하고, 키워드 확률 매개변수 pi_k에 Beta 사전분포를 둔다.
  • theta, phi, tilde_phi, pi를 적분해 버린 collapsed Gibbs 샘플링 방식으로 z_di, s_di, alpha_k 를 샘플링한다.
  • 샘플링 중에 과도하게 자주 나타나는 단어의 가중치를 낮추기 위해 항 가중치(wLDA)를 도입한다.
  • phi*_kv 와 theta_dk 의 사후 추정에 대한 닫힌 형식을 제공하고 키워드 구성 요소와 비키워드 구성 요소의 해석에 대해 논의한다.

실험 결과

연구 질문

  • RQ1주제에 소수의 키워드를 포함시키면 비지도 주제 모델과 비교하여 주제 해석 가능성이 향상되는가?
  • RQ2keyATM 이 표준 LDA 기반 모델에 비해 더 나은 문서 분류 성능을 보이는가?
  • RQ3키워드가 없는 주제를 포함하고 공변량/시간 추세를 모델링하더라도 성능 저하 없이 가능한가?

주요 결과

  • keyATM 은 키워드 미인식 기반선(wLDA)보다 더 해석 가능한 주제-단어 분포를 산출한다.
  • keyATM 의 주제-단어 분포는 인간 표기 라벨 및 CAP/CBP 분류와 더 잘 일치한다.
  • 의회 법안 말뭉치의 대다수 주제에서 keyATM 은 wLDA 보다 더 나은 문서-주제 분류 성능을 달성하며 ROC 비교에서 keyATM 이 우세하다.
  • 키워드 없는 주제를 허용하고 하이퍼파라미터를 학습하는 것이 모델의 유연성과 성능을 개선한다.
  • 기본 keyATM 은 공변량을 포함하고 시간 추세를 모델링할 수 있으며, 향상된 해석 가능성과 측정 품질을 유지한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.