Skip to main content
QUICK REVIEW

[논문 리뷰] TopicRNN: A Recurrent Neural Network with Long-Range Semantic Dependency

Adji Bousso Dieng, Chong Wang|arXiv (Cornell University)|2016. 11. 05.
Topic Modeling인용 수 129
한 줄 요약

TopicRNN은 RNN과 잠재 토 topic를 결합해 로컬 단어 순서와 글로벌 의미 맥락을 엔드투엔드로 모델링하고, 맥락 기반 RNN 베이스라인 대비 perplexity를 개선하며 감정 분석을 위한 비지도 문서 특징을 가능하게 한다.

ABSTRACT

In this paper, we propose TopicRNN, a recurrent neural network (RNN)-based language model designed to directly capture the global semantic meaning relating words in a document via latent topics. Because of their sequential nature, RNNs are good at capturing the local structure of a word sequence - both semantic and syntactic - but might face difficulty remembering long-range dependencies. Intuitively, these long-range dependencies are of semantic nature. In contrast, latent topic models are able to capture the global underlying semantic structure of a document but do not account for word ordering. The proposed TopicRNN model integrates the merits of RNNs and latent topic models: it captures local (syntactic) dependencies using an RNN and global (semantic) dependencies using latent topics. Unlike previous work on contextual RNN language modeling, our model is learned end-to-end. Empirical results on word prediction show that TopicRNN outperforms existing contextual RNN baselines. In addition, TopicRNN can be used as an unsupervised feature extractor for documents. We do this for sentiment analysis on the IMDB movie review dataset and report an error rate of $6.28\%$. This is comparable to the state-of-the-art $5.91\%$ resulting from a semi-supervised approach. Finally, TopicRNN also yields sensible topics, making it a useful alternative to document models such as latent Dirichlet allocation.

연구 동기 및 목표

  • RNN의 로컬 구문 모델링과 토픽 모델로부터의 글로벌 의미 구조를 결합하도록 동기를 부여한다.
  • RNN 매개변수와 잠재 토픽 표현을 함께 학습하는 엔드투엔드 TopicRNN 프레임워크를 제안한다.
  • 중지어(stop words)를 명시적으로 다루어 글로벌 의미의 영향과 로컬 구문의 영향을 구분한다.
  • 사전 학습된 주제 없이도 PTB에서 개선된 perplexity와 IMDB에서 경쟁력 있는 감정 분석 결과를 시연한다.
  • TopicRNN이 일관된 주제를 생성하고 다운스트림 작업을 위한 비지도 특징 추출기로 작용할 수 있음을 보인다.

제안 방법

  • 가우시안 사전분포에서 theta라는 잠재 토픽 벡터를 뽑는 생성적 TopicRNN 모델을 정의한다.
  • 각 시점 t에서 이전 단어 x_t와 h_{t-1}으로부터 RNN 은닉상태 h_t를 계산한다.
  • h_t에 의존하는 성공확률을 가지는 Bernoulli로부터 샘플링된 stop-word 지시자 l_t를 도입한다.
  • p(y_t|h_t, theta, l_t)를 로컬 항 v_i^T h_t와, l_t=0일 때 전역 주제 바이어스 b_i^T theta를 사용하여 모델링한다; 그렇지 않으면 theta는 출력에 영향을 주지 않는다.
  • X_c를 비중지어 단어의 가방(bag-of-words)으로 하여 q(theta|X_c, W_c)로 theta의 사후를 근사하는 변분 추론 네트워크를 사용한다.
  • 재매개화(reparameterization)를 이용해 ELBO를 최적화하고 Adam을 사용하여 엔드투엔드로 학습하며 추론 네트워크와 모델을 함께 업데이트한다.
  • theta의 점 추정치(또는 q의 평균)를 사용하고 l_t에 대해 주변화를 수행하여 예측을 생성하며, 효율성을 위해 슬라이딩 윈도우로 theta를 업데이트한다.

실험 결과

연구 질문

  • RQ1사전 학습이나 외부에서 제공된 주제 특징 없이 잠재 주제가 RNN 언어 모델에 글로벌 의미 맥락을 제공할 수 있는가?
  • RQ2TopicRNN이 PTB에서 맥락 기반 RNN 베이스라인과 비교하여 단어 예측 perplexity를 개선하는가?
  • RQ3TopicRNN이 의미 있는 주제를 생성하고 IMDB의 감정 분석을 위한 비지도 특징 추출기로 작용할 수 있는가?
  • RQ4theta를 통한 글로벌 의미 영향과 로컬 구문의 분리가 모델 성능 및 학습 역학에 어떤 영향을 미치는가?

주요 결과

  • TopicRNN은 PTB에서 맥락 RNN 베이스라인보다 단어당 perplexity가 더 낮다.
  • 100 뉴런 및 50 토픽 구성의 모델은 사전 학습된 주제 특징 없이도 경쟁력 있는 perplexity를 달성한다.
  • TopicRNN에서 도출된 특징은 IMDB 100K에서 경쟁력 있는 감정 분석 성능을 가능하게 하며 오차율은 6.28%로 최첨단 방법에 근접하다.
  • TopicRNN은 합리적인 주제를 생성하고 응집력 있는 텍스트 샘플을 produced한다.
  • TopicRNN의 주제와 특징은 군집화 및 감정 분석과 같은 다운스트림 작업에 사용할 수 있는 비지도 표현을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.