Skip to main content
QUICK REVIEW

[논문 리뷰] Supervised and Semi-Supervised Text Categorization using LSTM for Region Embeddings

Rie Johnson, Tong Zhang|arXiv (Cornell University)|2016. 02. 07.
Text and Document Classification Technologies참고 문헌 23인용 수 136
한 줄 요약

이 논문은 텍스트 분류를 위한 원-핫 LSTM을 사용하여 텍스트 영역을 임베딩하는 일반적인 영역 임베딩 프레임워크를 제안하고, LSTM 기반 영역 임베딩과 CNN 기반 영역 임베딩을 결합해—비지도 데이터에서 학습—여러 벤치마크에서 최첨단 성능을 달성한다는 것을 보인다.

ABSTRACT

One-hot CNN (convolutional neural network) has been shown to be effective for text categorization (Johnson & Zhang, 2015). We view it as a special case of a general framework which jointly trains a linear model with a non-linear feature generator consisting of `text region embedding + pooling'. Under this framework, we explore a more sophisticated region embedding method using Long Short-Term Memory (LSTM). LSTM can embed text regions of variable (and possibly large) sizes, whereas the region size needs to be fixed in a CNN. We seek effective and efficient use of LSTM for this purpose in the supervised and semi-supervised settings. The best results were obtained by combining region embeddings in the form of LSTM and convolution layers trained on unlabeled data. The results indicate that on this task, embeddings of text regions, which can convey complex concepts, are more useful than embeddings of single words in isolation. We report performances exceeding the previous best results on four benchmark datasets.

연구 동기 및 목표

  • 텍스트 분류를 위한 영역 임베딩 + 풀링의 일반 프레임워크를 도입한다. 이 프레임워크는 one-hot CNN을 포괄한다.
  • 단어 임베딩 없이 영역 임베딩 생성기로 LSTM을 사용하는 것을 탐구한다.
  • 단독 학습(supervised) 및 준지도 학습(semi-supervised) 설정을 평가하며, 영역 임베딩을 학습하기 위해 비라벨 데이터(unlabeled data)를 포함한다.
  • 비지도 데이터로 학습된 CNN 기반 임베딩과 LSTM 기반 임베딩의 결합이 성능을 향상시키는지 시연한다.]
  • method1: Replace word embedding layer with one-hot LSTM to feed one-hot vectors directly into LSTM.
  • method2: Use pooling to form document representations from region embeddings (short segments) rather than full documents.
  • method3: Simplify LSTM by removing input/output gates and applying chopping for speed, and optionally employ bidirectional LSTM with pooling.
  • method4: Introduce LSTM tv-embeddings learned from unlabeled data to provide additional inputs to the supervised LSTM model.
  • method5: Combine LSTM tv-embeddings with CNN tv-embeddings to create complementary region representations.
  • method6: Train end-to-end with SGD (or RMSProp) on labeled data; evaluate on four benchmarks and compare against SVM, oh-CNN, and wv-LSTM.

제안 방법

  • 단어 임베딩 계층을 원-핫 LSTM으로 대체하여 원-핫 벡터를 직접 LSTM에 입력한다.
  • 전체 문서가 아닌 짧은 구간(영역 임베딩)으로부터 문서 표현을 형성하기 위해 풀링을 사용한다.
  • 입력 게이트/출력 게이트를 제거하고 속도를 위해 자르기(chopping)를 적용하여 LSTM을 단순화하고, 선택적으로 풀링이 있는 양방향 LSTM을 사용한다.
  • 비라벨 데이터에서 학습된 LSTM tv-embeddings를 도입하여 감독 LSTM 모델에 추가 입력을 제공한다.
  • LSTM tv-embeddings와 CNN tv-embeddings를 결합하여 상보적인 영역 표현을 만든다.
  • 레이블 데이터에서 SGD(또는 RMSProp)로 엔드투엔드 학습; 네 벤치마크에 대해 평가하고 SVM, oh-CNN, wv-LSTM과 비교한다.

실험 결과

연구 질문

  • RQ1원-핫 LSTM으로 학습된 영역 임베딩이 CNN의 고정 크기 영역 임베딩을 텍스트 분류에서 능가할 수 있는가?
  • RQ2tv-임베딩을 통해 비라벨 데이터를 도입하는 것이 감독 텍스트 분류를 향상시키는가?
  • RQ3LSTM 및 CNN 영역 임베딩의 조합이 서로를 보완하는 이점을 가져다주며 각각 단독보다 더 나은 성능을 보이는가?

주요 결과

MethodIMDBElecRCV120NG
SVM bow11.3611.7110.7617.47
SVM 1–3grams9.428.7110.6915.85
wv-LSTM [DL15]13.5011.7416.0418.0
oh-2LSTMp8.147.3311.1713.32
oh-CNN [JZ15b]8.397.649.1713.64
  • 풀링이 있는 원-핫 양방향 LSTM(oh-2LSTMp)은 IMDB, Elec, 20NG에서 word-vector LSTM (wv-LSTM)보다 우수하며 대부분의 경우 oh-CNN과 경쟁력 있거나 더 낫다.
  • 감독 설정에서 oh-2LSTMp가 여러 벤치마크보다 더 낮은 오류를 달성하며, Table 3에: IMDB 8.14, Elec 7.33, RCV1 11.17, 20NG 13.32가 나타난다.
  • 준지도 결과는 비라벨 데이터로 학습된 LSTM tv-embeddings를 사용한 oh-2LSTMp가 모든 데이터셋에서 감독 버전보다 성능을 향상시키는 것을 보여준다(예: IMDB 6.66 vs 8.14).
  • oh-CNN + CNN tv-embeddings 및 oh-2LSTMp + LSTM tv-embeddings의 조합은 결합 시 결과를 추가로 향상시킬 수 있다(Table 6).
  • IMDB/Elec/RCV1/20NG에서 보고된 최고 감독 결과가 이전 최고를 능가했으며, 예: IMDB 5.94, Elec 5.55, RCV1 7.15가 Table 7에 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.