Skip to main content
QUICK REVIEW

[論文レビュー] Towards Sub-Word Level Compositions for Sentiment Analysis of Hindi-English Code Mixed Text

Ameya Prabhu, Aditya Joshi|arXiv (Cornell University)|Nov 2, 2016
Sentiment Analysis and Opinion Mining被引用数 69
ひとこと要約

本稿では、ノイズが多く、スペルミスが頻発するソーシャルメディア文書におけるヒンディー語-英語混在テキストのセンチメント分析のためのサブワード-LSTMモデルを提案する。この手法は、サブワードレベルの表現を活用して、ノイズの多い文書内における形態素レベルのセンチメント手がかりを捉える。提案手法は、新たに作成されたHi-En混在データセットで69.7%の正確度と0.658のF1スコアを達成し、従来の手法よりも4-5%、既存のシステムよりも18%高い性能を発揮した。

ABSTRACT

Sentiment analysis (SA) using code-mixed data from social media has several applications in opinion mining ranging from customer satisfaction to social campaign analysis in multilingual societies. Advances in this area are impeded by the lack of a suitable annotated dataset. We introduce a Hindi-English (Hi-En) code-mixed dataset for sentiment analysis and perform empirical analysis comparing the suitability and performance of various state-of-the-art SA methods in social media. In this paper, we introduce learning sub-word level representations in LSTM (Subword-LSTM) architecture instead of character-level or word-level representations. This linguistic prior in our architecture enables us to learn the information about sentiment value of important morphemes. This also seems to work well in highly noisy text containing misspellings as shown in our experiments which is demonstrated in morpheme-level feature maps learned by our model. Also, we hypothesize that encoding this linguistic prior in the Subword-LSTM architecture leads to the superior performance. Our system attains accuracy 4-5% greater than traditional approaches on our dataset, and also outperforms the available system for sentiment analysis in Hi-En code-mixed text by 18%.

研究の動機と目的

  • ヒンディー語-英語混在のソーシャルメディア文書におけるセンチメント分析のためのアノテート済みデータセットの不足に対処する。
  • 混在テキストに起因する綴りのばらつき、形態的複雑さ、ノイズの課題を克服する。
  • LSTMにおけるサブワードレベルの表現を通じた言語的事前知識の統合により、センチメント分類の性能を向上させる。
  • サブワード特徴量がセンチメント関連の形態素を捉える際に、文字レベル表現よりも優れていることを示す。
  • 言語的事前知識のアーキテクチャ的統合が、ノイズが多くリソースが限られた混在テキストデータに対してモデル性能を向上させることを検証する。

提案手法

  • 文字レベルや語彙レベルではなく、サブワードレベルでの表現を学習するサブワード-LSTMアーキテクチャを提案する。
  • バイトペアエンコーディング(BPE)または類似するサブワードトークン化を用いて、単語を意味のある形態素単位に分割する。
  • 新たにアノテートされたHi-En混在データセットを用い、バッチサイズ128でAdam最適化手法を用いてエンドツーエンドでモデルを学習する。
  • ネットワーク内の畳み込みフィルタを可視化し、センチメント関連のサブワードパターンがどのように学習されているかを分析する。
  • 同じデータセット上で、文字レベルLSTM、従来の分類器(SVM、NB)、およびリソースベースの手法と性能を比較する。
  • 一般化能力の検証のため、SemEval-2013データセットで交差検証を実施する。

実験結果

リサーチクエスチョン

  • RQ1文字レベルや語彙レベルの表現と比較して、サブワードレベルの表現は、ノイズが多く混在するヒンディー語-英語テキストにおけるセンチメント分類を改善できるか?
  • RQ2RNNアーキテクチャへの言語的事前知識(例:形態素構造)の統合は、リソースが限られノイズが多い混在テキストデータに対して性能にどのような影響を与えるか?
  • RQ3ソーシャルメディア文書における綴りのばらつきや形態的歪みは、従来のセンチメント分析手法をどの程度阻害するか?
  • RQ4Subword-LSTMモデルは、SemEval-2013で妥当性が確認された他の混在テキストやノイズの多いテキスト設定にも一般化できるか?
  • RQ5学習済みフィルタの可視化により、誤字が多くても、モデルがセンチメント関連のサブワードセグメントを正しく捉えていることが確認できるか?

主な発見

  • 提案されたHi-En混在データセットにおいて、Subword-LSTMモデルは69.7%の正確度と0.658のF1スコアを達成し、従来の手法よりも4-5ポイント高い性能を発揮した。
  • 本研究で入手可能な最高のシステムよりも、性能が18%向上した。
  • サブワードレベルの表現は、文字レベルLSTM(正確度59.8%、F1スコア0.511)よりも顕著に優れていた。
  • ユニグラム特徴量を用いた多項式ベイズ・ナイーブベイズがSVMやTF-IDFベースラインを上回った。これは、このスパースなデータセットにおいて、スパarsityの低減が性能向上に寄与することを示している。
  • リソースベースの手法は、誤った表記への変換が原因で失敗した。これは、正確なセンチメント照合が不可能になったためである。
  • 可視化結果から、たとえば'btwn' や 'cooolll' のような重度に誤字が入った単語に対しても、モデルがセンチメント関連のサブワードセグメントを正しく検出していることが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。