Skip to main content
QUICK REVIEW

[論文レビュー] Actionable and Political Text Classification using Word Embeddings and LSTM

Adithya Rao, Nemanja Spasojevic|arXiv (Cornell University)|Jul 8, 2016
Sentiment Analysis and Opinion Mining参考文献 7被引用数 41
ひとこと要約

本論文は、感情分析を越えて、顧客サポートおよび政治的洞察の応用分野における文脈特化型分類に適した、単語埋め込みと長短期記憶(LSTM)ネットワークを用いた深層学習手法を提案する。30か国語以上の言語でアクティビティ分類において85%の正確度を達成し、政治的傾向(民主党対共和党)分類では87.57%の正確度を示し、従来の手法を上回り、顧客サポートおよび政治的洞察応用分野における文脈特化型分類の価値を示している。

ABSTRACT

In this work, we apply word embeddings and neural networks with Long Short-Term Memory (LSTM) to text classification problems, where the classification criteria are decided by the context of the application. We examine two applications in particular. The first is that of Actionability, where we build models to classify social media messages from customers of service providers as Actionable or Non-Actionable. We build models for over 30 different languages for actionability, and most of the models achieve accuracy around 85%, with some reaching over 90% accuracy. We also show that using LSTM neural networks with word embeddings vastly outperform traditional techniques. Second, we explore classification of messages with respect to political leaning, where social media messages are classified as Democratic or Republican. The model is able to classify messages with a high accuracy of 87.57%. As part of our experiments, we vary different hyperparameters of the neural networks, and report the effect of such variation on the accuracy. These actionability models have been deployed to production and help company agents provide customer support by prioritizing which messages to respond to. The model for political leaning has been opened and made available for wider use.

研究の動機と目的

  • 顧客サポートおよび政治的議論分野における応用固有の基準に応じて、感情分析を越えた文脈特化型テキスト分類システムの開発。
  • ソーシャルメディアのメッセージをアクティビティあり/なしに分類することで、応答の優先順位付けを可能にし、カスタマーサポートの効率を向上。
  • 感情の極性とは独立して政治的傾向を捉えることで、より深い政治的洞察を可能にする。
  • ハイパーパrameterの影響が、アクティビティ分類および政治的傾向分類の両タスクにおけるモデル性能に与える影響を評価。
  • 高精度な政治的傾向分類モデルをデプロイし、オープンソース化して、広範な研究および応用利用を促進。

提案手法

  • テキストを意味的ベクトルに変換するため、事前学習済みの単語埋め込み(例:word2vec や GloVe)を用いて入力表現を生成。
  • ソーシャルメディアのテキストにおける逐次的依存関係をモデル化するため、双方向LSTMネットワークを採用し、長距離の文脈的パターンを捉える。
  • 2値分類(アクティビティあり/なし、または民主党/共和党)を目的として、最終層にソフトマックス層を備えた多層ニューラルネットワークを訓練。
  • ハイパーパrameterチューニングを実施し、Adam最適化手法とシグモイド活性化関数を用いてモデル性能を最適化。埋め込みおよびLSTM層のユニット数を調整。
  • アクティビティ分類のため、言語ごとに別々のモデルを訓練。語彙サイズは20,000、学習データセットは330,000件。
  • 訓練済みの政治的傾向分類モデルおよび関連データをGitHub経由で公開し、再現性および広範な利用を促進。

実験結果

リサーチクエスチョン

  • RQ1単語埋め込みを用いたLSTMベースのモデルは、複数の言語におけるアクティビティ分類において、従来の機械学習手法を上回ることができるか?
  • RQ2ハイパーパrameterの変化(例:LSTMユニット数、埋め込み次元数)が、アクティビティ分類および政治的傾向分類タスクにおける分類正確度に与える影響はいかほどか?
  • RQ3感情の極性のみでは、カスタマーサポートおよび政治的議論における意味的な違いを十分に捉えきれないため、文脈に依存する分類がなぜ必要か?
  • RQ41つのモデルアーキテクチャが、多様な言語においてアクティビティ分類に効果的に一般化できるか?
  • RQ5感情の極性が信頼できない状況下で、政治的傾向分類器が民主党と共和党の見解をどれほど正確に区別できるか?

主な発見

  • LSTMベースのモデルは、いくつかの言語でアクティビティ分類において90%を超える正確度を達成し、大多数のモデルが約85%の正確度に達した。
  • 128の埋め込みユニットと32のLSTMユニットを用い、シグモイド活性化関数とAdam最適化手法を適用したモデルは、政治的傾向分類で87.57%の正確度を達成した。
  • 単語埋め込みを用いたLSTMネットワークは、アクティビティ分類および政治的分類の両タスクにおいて、従来の機械学習手法を顕著に上回った。
  • アクティビティ分類において、30か国語以上の言語で安定した性能を示し、言語の多様性にもかかわらず強力な一般化能力を示した。
  • 政治的傾向モデルの予測スコアは、傾向の強さを反映しており、例として「0.94」は強く共和党寄りのメッセージを示しており、二値ラベルを超えた洗練された解釈が可能である。
  • オープンソース化された政治的傾向分類モデルおよび関連データは、一般に公開されており、政治的テキスト分析分野における再利用およびさらなる研究を可能にしている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。