QUICK REVIEW

[논문 리뷰] textTOvec: Deep Contextualized Neural Autoregressive Topic Models of Language with Distributed Compositional Prior

Pankaj Gupta, Yatin Chaudhary|arXiv (Cornell University)|2018. 10. 09.

Topic Modeling참고 문헌 33인용 수 2

한 줄 요약

이 논문은 LSTM 기반 언어 모델과 단어 임베딩을 통합하여 어순, 문법, 의미 및 장거리 의존성을 포착하는 신경 자동회귀 주제 모델인 ctx-DocNADE와 ctx-DocNADEe를 제안한다. 이는 전통적인 주제 모델의 bag-of-words 제한을 극복한다. 모델들은 특히 짧거나 희소한 텍스트 데이터셋에서 퍼즐러피티, 주제 일관성 및 검색 및 분류 성능을 크게 향상시킨다.

ABSTRACT

We address two challenges of probabilistic topic modelling in order to better estimate the probability of a word in a given context, i.e., P(word|context): (1) No Language Structure in Context: Probabilistic topic models ignore word order by summarizing a given context as a "bag-of-word" and consequently the semantics of words in the context is lost. The LSTM-LM learns a vector-space representation of each word by accounting for word order in local collocation patterns and models complex characteristics of language (e.g., syntax and semantics), while the TM simultaneously learns a latent representation from the entire document and discovers the underlying thematic structure. We unite two complementary paradigms of learning the meaning of word occurrences by combining a TM (e.g., DocNADE) and a LM in a unified probabilistic framework, named as ctx-DocNADE. (2) Limited Context and/or Smaller training corpus of documents: In settings with a small number of word occurrences (i.e., lack of context) in short text or data sparsity in a corpus of few documents, the application of TMs is challenging. We address this challenge by incorporating external knowledge into neural autoregressive topic models via a language modelling approach: we use word embeddings as input of a LSTM-LM with the aim to improve the word-topic mapping on a smaller and/or short-text corpus. The proposed DocNADE extension is named as ctx-DocNADEe. We present novel neural autoregressive topic model variants coupled with neural LMs and embeddings priors that consistently outperform state-of-the-art generative TMs in terms of generalization (perplexity), interpretability (topic coherence) and applicability (retrieval and classification) over 6 long-text and 8 short-text datasets from diverse domains.

연구 동기 및 목표

신경 언어 모델을 통합하여 전통적인 주제 모델이 어순과 언어 구조를 忽시하는 문제를 해결한다.
사전 훈련된 단어 임베딩을 외부 지식 사전으로 통합하여 희소하거나 짧은 텍스트 데이터셋에서의 주제 모델 성능을 향상시킨다.
신경 자동회귀 주제 모델링을 맥락 기반 언어 모델링과 하나의 확률적 프레임워크에서 통합하여 더 풍부한 의미 표현을 가능하게 한다.
다양한 장문 및 짧은 텍스트 데이터셋에서 검색, 분류, 일관성 지표를 기준으로 제안된 모델을 평가한다.

제안 방법

LSTM 기반 언어 모델(LSTM-LM)과 DocNADE 기반 신경 자동회귀 주제 모델을 통합하여 국소적 어울림 패턴과 전반적인 문서 수준의 의미를 함께 모델링한다.
LSTM-LM의 은닉 상태를 주제 모델에서 단어 확률 추정의 조건으로 사용하여 맥락 인식 기반의 단어 생성을 가능하게 한다.
저자원 환경에서 단어-주제 매핑을 향상시키기 위해 사전 훈련된 단어 임베딩을 입력 사전으로 통합한다.
단어 임베딩을 구성적 사전으로 사용하여 희소하거나 짧은 텍스트 코퍼스에서 일반화 능력을 향상시키기 위해 프레임워크를 ctx-DocNADEe로 확장한다.
주제 할당과 언어 모델링을 최대우도추정 기반으로 함께 최적화하는 통합된 확률적 프레임워크를 활용한다.
LSTM-LM의 계층적 표현을 활용하여 하위 레이어는 문법을, 상위 레이어는 의미를 포착하도록 하여 주제 모델링을 풍부하게 한다.

실험 결과

연구 질문

RQ1신경 언어 모델을 주제 모델에 통합함으로써 어순과 의미 구조를 포착함으로써 P(단어|맥락) 추정을 향상시킬 수 있는가?
RQ2사전 지식 사전으로서의 단어 임베딩 통합이 저자원 또는 짧은 텍스트 환경에서 주제 모델 성능을 어떻게 향상시키는가?
RQ3주제 모델과 맥락 기반 언어 모델을 결합함으로써 퍼즐러피티 측정 기준으로 최신 기술 대비 더 나은 일반화 성능을 달성할 수 있는가?
RQ4제안된 모델은 주제 해석 가능성과 검색 및 분류와 같은 후행 NLP 작업에서 얼마나 향상되는가?
RQ5훈련 데이터의 소수의 일부만 사용할 경우 성능 향상 효과를 유지할 수 있는가?

주요 결과

TMNtitle 데이터셋에서 ctx-DocNADEe는 훈련 데이터의 20% 비율로 IR-정밀도 0.580을 기록하며, DocNADE의 0.444를 초월한다.
동일한 데이터셋에서 ctx-DocNADEe는 훈련 데이터의 20% 비율로 매크로-F1 점수 0.711을 기록하며, DocNADE의 0.615를 뛰어넘는다.
100% 훈련 데이터 비율에서 ctx-DocNADEe는 IR-정밀도 0.595와 매크로-F1 점수 0.726를 기록하며, 각각 DocNADE의 0.525와 0.688를 초월한다.
모델은 주제 일관성과 해석 가능성 향상을 보이며, 20NS 데이터셋에서 ctx-DocNADEe가 DocNADE보다 더 일관성 있는 주제를 추출한다.
텍스트 검색에서 ctx-DocNADEe는 검색어와 일치하는 유니그램이 전혀 없는 문서를도 유의미하게 검색함으로써 강력한 의미 일반화 능력을 보여준다.
제안된 모델들은 장문 텍스트 7개 및 짧은 텍스트 8개 데이터셋에서 퍼즐러피티, 일관성, 검색, 분류 작업 전반에서 최신 기술 대비 일관되게 뛰어난 성능을 기록한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.