Skip to main content
QUICK REVIEW

[論文レビュー] Double Embeddings and CNN-based Sequence Labeling for Aspect Extraction

Hu Xu, Bing Liu|arXiv (Cornell University)|May 11, 2018
Sentiment Analysis and Opinion Mining参考文献 38被引用数 53
ひとこと要約

DE-CNN は新しいダブル埋め込みアプローチ(一般的とドメイン固有)を用い、シーケンスラベリングには純粋な CNN を使用して製品のアスペクトを抽出し、追加の監視なしで最先端の結果を達成します。

ABSTRACT

One key task of fine-grained sentiment analysis of product reviews is to extract product aspects or features that users have expressed opinions on. This paper focuses on supervised aspect extraction using deep learning. Unlike other highly sophisticated supervised deep learning models, this paper proposes a novel and yet simple CNN model employing two types of pre-trained embeddings for aspect extraction: general-purpose embeddings and domain-specific embeddings. Without using any additional supervision, this model achieves surprisingly good results, outperforming state-of-the-art sophisticated existing methods. To our knowledge, this paper is the first to report such double embeddings based CNN model for aspect extraction and achieve very good results.

研究の動機と目的

  • 製品のアスペクトを正確に抽出することによって、細粒度感情分析の動機づけを行う。
  • シンプルでありながら効果的な CNN ベースのシーケンスラベリングモデルを提案する。
  • 一般的な埋め込みとドメイン固有の埋め込みを組み合わせると性能が向上することを示す。
  • 手作りの特徴量や追加の監視なしで競争力のある結果を示す。

提案手法

  • 単語ごとに二つの固定(学習されない)埋め込みを結合する:一般的な GloVe とドメイン固有の fastText 埋め込み。
  • 適切に選択されたカーネルサイズを用いた4層の CNN スタックを適用し、シーケンスラベリングのための単語揃え表現を生成する。
  • 共有の全結合層とソフトマックス分類器を用いて、各位置の B/I/O ラベルを予測する。
  • 位置合わせを保持するために最大プーリングを避け、埋め込みと活性化の後にドロップアウトを適用する。
  • ラベリング依存性への影響を評価するために、CRF 層と比較することもある。

実験結果

リサーチクエスチョン

  • RQ1二重埋め込みを用いた CNN ベースのモデルは、追加の監視なしで細粒度のアスペクト情報を十分に捉えられるか?
  • RQ2ドメイン内埋め込みと一般埋め込みはアスペクト抽出の性能にどう影響するか?
  • RQ3アスペクト抽出タスクにおけるシーケンスラベリングで最大プーリングは不利か?
  • RQ4この設定で CRF 層は純粋なソフトマックスより追加の利得を提供するか?

主な発見

モデルラップトップレストラン
CRF74.0169.56
IHS_RD74.55-
NLANGP-72.34
WDEmb75.16-
LSTM75.2571.26
BiLSTM-CNN-CRF77.8072.50
RNCRF78.42-
CMLA77.80-
MIN77.5873.44
GloVe-CNN77.6772.08
Domain-CNN78.1271.75
MaxPool-DE-CNN77.4571.12
DE-LSTM78.7372.94
DE-OOD-CNN80.2174.20
DE-Google-CNN78.8072.10
DE-CNN-CRF80.8074.10
DE-CNN81.59*74.37*
  • DE-CNN は、列挙されたベースラインと比較して SemEval の laptop および restaurant データセットで最高の F1 スコアを達成する。
  • 一般的な埋め込みとドメイン埋め込みの両方を使用することで、どちらか一方だけを使用するより性能が向上する。
  • ドメイン内埋め込みは特に laptop ドメインで有益であり、ドメイン固有のアスペクトが頻繁に出現する。
  • このタスクでは最大プーリングがシーケンスラベリングの性能を低下させる。
  • CRF 層は限定的な利得しかなく、ドメインを跨いで一貫して有利とは言えない。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。