QUICK REVIEW

[論文レビュー] Attentional Encoder Network for Targeted Sentiment Classification

Youwei Song, Jiahai Wang|arXiv (Cornell University)|Feb 25, 2019

Topic Modeling参考文献 26被引用数 197

ひとこと要約

この論文は、Targeted Sentiment ClassificationのためのAttentional Encoder Network (AEN) を提案する非再発型、注意機構ベースのモデルであり、ラベルスムージングを強化として、BERT統合とともに最先端の結果を示す。

ABSTRACT

Targeted sentiment classification aims at determining the sentimental tendency towards specific targets. Most of the previous approaches model context and target words with RNN and attention. However, RNNs are difficult to parallelize and truncated backpropagation through time brings difficulty in remembering long-term patterns. To address this issue, this paper proposes an Attentional Encoder Network (AEN) which eschews recurrence and employs attention based encoders for the modeling between context and target. We raise the label unreliability issue and introduce label smoothing regularization. We also apply pre-trained BERT to this task and obtain new state-of-the-art results. Experiments and analysis demonstrate the effectiveness and lightweight of our model.

研究の動機と目的

Targeted sentiment classificationの動機づけと、RNNベースのエンコーダの制約を解決する。
反復なしでターゲットと文脈の相互作用をモデル化する軽量な注意機構エンコーダの提案。
中立的な感情ラベルの信頼性不足に対処するためのラベルスムージング正則化の導入。
BERTの組み込みが性能を向上させることをデモンストレーションし、モデルサイズの分析を提供する。

提案手法

GloVe または BERT を用いて単語を埋め込む（AEN-GloVe 対 AEN-BERT）。
並列の注意機構エンコーダを使用し、内部MHA（文脈自己注意）と外部MHA（文脈からターゲットへ）、続いてターゲット特異的なMHAを適用。
表現を洗練させるために点ごとの畳み込み変換（PCT）を適用。
平均プーリングと全結合層で集約し、softmaxで分類。
中立ラベルの信頼性不足を緩和するためにラベルスムージング正則化（LSR）を組み込み; クロスエントロピー + LSR + L2正則化で最適化。

実験結果

リサーチクエスチョン

RQ1非再発性の注意機構エンコーダは、ターゲットと文脈間の相互作用をターゲット感情分類で効果的にモデル化できるか。
RQ2ラベルスムージングは信頼性の低い中立ラベルに対する頑健性を向上させるか。
RQ3BERTを強化したAENは、標準のBERTベースラインやRNNベースモデルと比較してターゲット感情タスクでどうか。
RQ4再帰的アーキテクチャと比べた場合、モデルサイズと計算効率のトレードオフはどうなるか。

主な発見

Twitter 精度	Twitter Macro-F1	Restaurant 精度	Restaurant Macro-F1	Laptop 精度	Laptop Macro-F1
TD-LSTM	0.7080	0.6900	0.7563	-	-
ATAE-LSTM	-	-	0.7720	-	-
IAN	-	-	0.7860	-	-
RAM	0.6936	0.6730	0.8023	0.7080	0.7449	0.7135
MemNet	0.6850	0.6691	0.7816	0.6583	0.7033	0.6409
AEN-GloVe w/o PCT	0.7066	0.6907	0.8017	0.7050	0.7272	0.6750
AEN-GloVe w/o MHA	0.7124	0.6953	0.7919	0.7028	0.7178	0.6650
AEN-GloVe w/o LSR	0.7080	0.6920	0.8000	0.7108	0.7288	0.6869
AEN-GloVe-BiLSTM	0.7210	0.7042	0.7973	0.7037	0.7312	0.6980
AEN-GloVe	0.7283	0.6981	0.8098	0.7214	0.7351	0.6904
BERT-SPC	0.7355	0.7214	0.8446	0.7698	0.7899	0.7503
AEN-BERT	0.7471	0.7313	0.8312	0.7376	0.7993	0.7631

AEN-BERTおよびAEN-GloVeは、Twitter、Restaurant、Laptopのデータセット全体で競争力のある、またはそれを上回る精度とMacro-F1を達成する。
提案されたコンポーネントを備えたAEN-GloVeは、PCT、MHA、またはLSRを欠くアブレーションを上回り、各モジュールの重要性を示している。
BERT-SPCとAEN-BERTは実質的な向上を達成し、AEN-BERTはBERT-SPCを上回り、事前学習モデル上にタスク適合アーキテクチャを組み込む利点を強調している。
AEN-GloVeは、再帰的モデルの軽量な代替であり、パラメータ数とメモリ使用量が少ない。
ラベルスムージング（LSR）は性能を大幅に向上させる、特に中立ラベルの信頼性不足によって。
BERTベースのバリアントは顕著な向上を示し、タスク固有の下流アーキテクチャの価値を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。