Skip to main content
QUICK REVIEW

[논문 리뷰] textTOvec: Deep Contextualized Neural Autoregressive Topic Models of Language with Distributed Compositional Prior

Pankaj Gupta, Yatin Chaudhary|arXiv (Cornell University)|2018. 10. 09.
Topic Modeling참고 문헌 33인용 수 2
한 줄 요약

이 논문은 LSTM 기반 언어 모델과 단어 임베딩을 통합하여 어순, 문법, 의미 및 장거리 의존성을 포착하는 신경 자동회귀 주제 모델인 ctx-DocNADE와 ctx-DocNADEe를 제안한다. 이는 전통적인 주제 모델의 bag-of-words 제한을 극복한다. 모델들은 특히 짧거나 희소한 텍스트 데이터셋에서 퍼즐러피티, 주제 일관성 및 검색 및 분류 성능을 크게 향상시킨다.

ABSTRACT

We address two challenges of probabilistic topic modelling in order to better estimate the probability of a word in a given context, i.e., P(word|context): (1) No Language Structure in Context: Probabilistic topic models ignore word order by summarizing a given context as a "bag-of-word" and consequently the semantics of words in the context is lost. The LSTM-LM learns a vector-space representation of each word by accounting for word order in local collocation patterns and models complex characteristics of language (e.g., syntax and semantics), while the TM simultaneously learns a latent representation from the entire document and discovers the underlying thematic structure. We unite two complementary paradigms of learning the meaning of word occurrences by combining a TM (e.g., DocNADE) and a LM in a unified probabilistic framework, named as ctx-DocNADE. (2) Limited Context and/or Smaller training corpus of documents: In settings with a small number of word occurrences (i.e., lack of context) in short text or data sparsity in a corpus of few documents, the application of TMs is challenging. We address this challenge by incorporating external knowledge into neural autoregressive topic models via a language modelling approach: we use word embeddings as input of a LSTM-LM with the aim to improve the word-topic mapping on a smaller and/or short-text corpus. The proposed DocNADE extension is named as ctx-DocNADEe. We present novel neural autoregressive topic model variants coupled with neural LMs and embeddings priors that consistently outperform state-of-the-art generative TMs in terms of generalization (perplexity), interpretability (topic coherence) and applicability (retrieval and classification) over 6 long-text and 8 short-text datasets from diverse domains.

연구 동기 및 목표

  • 신경 언어 모델을 통합하여 전통적인 주제 모델이 어순과 언어 구조를 忽시하는 문제를 해결한다.
  • 사전 훈련된 단어 임베딩을 외부 지식 사전으로 통합하여 희소하거나 짧은 텍스트 데이터셋에서의 주제 모델 성능을 향상시킨다.
  • 신경 자동회귀 주제 모델링을 맥락 기반 언어 모델링과 하나의 확률적 프레임워크에서 통합하여 더 풍부한 의미 표현을 가능하게 한다.
  • 다양한 장문 및 짧은 텍스트 데이터셋에서 검색, 분류, 일관성 지표를 기준으로 제안된 모델을 평가한다.

제안 방법

  • LSTM 기반 언어 모델(LSTM-LM)과 DocNADE 기반 신경 자동회귀 주제 모델을 통합하여 국소적 어울림 패턴과 전반적인 문서 수준의 의미를 함께 모델링한다.
  • LSTM-LM의 은닉 상태를 주제 모델에서 단어 확률 추정의 조건으로 사용하여 맥락 인식 기반의 단어 생성을 가능하게 한다.
  • 저자원 환경에서 단어-주제 매핑을 향상시키기 위해 사전 훈련된 단어 임베딩을 입력 사전으로 통합한다.
  • 단어 임베딩을 구성적 사전으로 사용하여 희소하거나 짧은 텍스트 코퍼스에서 일반화 능력을 향상시키기 위해 프레임워크를 ctx-DocNADEe로 확장한다.
  • 주제 할당과 언어 모델링을 최대우도추정 기반으로 함께 최적화하는 통합된 확률적 프레임워크를 활용한다.
  • LSTM-LM의 계층적 표현을 활용하여 하위 레이어는 문법을, 상위 레이어는 의미를 포착하도록 하여 주제 모델링을 풍부하게 한다.

실험 결과

연구 질문

  • RQ1신경 언어 모델을 주제 모델에 통합함으로써 어순과 의미 구조를 포착함으로써 P(단어|맥락) 추정을 향상시킬 수 있는가?
  • RQ2사전 지식 사전으로서의 단어 임베딩 통합이 저자원 또는 짧은 텍스트 환경에서 주제 모델 성능을 어떻게 향상시키는가?
  • RQ3주제 모델과 맥락 기반 언어 모델을 결합함으로써 퍼즐러피티 측정 기준으로 최신 기술 대비 더 나은 일반화 성능을 달성할 수 있는가?
  • RQ4제안된 모델은 주제 해석 가능성과 검색 및 분류와 같은 후행 NLP 작업에서 얼마나 향상되는가?
  • RQ5훈련 데이터의 소수의 일부만 사용할 경우 성능 향상 효과를 유지할 수 있는가?

주요 결과

  • TMNtitle 데이터셋에서 ctx-DocNADEe는 훈련 데이터의 20% 비율로 IR-정밀도 0.580을 기록하며, DocNADE의 0.444를 초월한다.
  • 동일한 데이터셋에서 ctx-DocNADEe는 훈련 데이터의 20% 비율로 매크로-F1 점수 0.711을 기록하며, DocNADE의 0.615를 뛰어넘는다.
  • 100% 훈련 데이터 비율에서 ctx-DocNADEe는 IR-정밀도 0.595와 매크로-F1 점수 0.726를 기록하며, 각각 DocNADE의 0.525와 0.688를 초월한다.
  • 모델은 주제 일관성과 해석 가능성 향상을 보이며, 20NS 데이터셋에서 ctx-DocNADEe가 DocNADE보다 더 일관성 있는 주제를 추출한다.
  • 텍스트 검색에서 ctx-DocNADEe는 검색어와 일치하는 유니그램이 전혀 없는 문서를도 유의미하게 검색함으로써 강력한 의미 일반화 능력을 보여준다.
  • 제안된 모델들은 장문 텍스트 7개 및 짧은 텍스트 8개 데이터셋에서 퍼즐러피티, 일관성, 검색, 분류 작업 전반에서 최신 기술 대비 일관되게 뛰어난 성능을 기록한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.