QUICK REVIEW

[論文レビュー] Fine-grained Sentiment Analysis with Faithful Attention

Ruiqi Zhong, Steven Shao|arXiv (Cornell University)|Aug 19, 2019

Topic Modeling参考文献 17被引用数 39

ひとこと要約

本論文は感情関係抽出モデルを訓練し、注意機構を人間の合理的根拠と一致させる。注意に対するKL発散損失を用いる。これによりベースラインに対して4–8ポイントの改善を達成し、少量の人間の合理的根拠がGFBFにおいて性能と注意の忠実度の両方を実質的に向上させることを示す。一方、MPQAでは結果が混在している。

ABSTRACT

While the general task of textual sentiment classification has been widely studied, much less research looks specifically at sentiment between a specified source and target. To tackle this problem, we experimented with a state-of-the-art relation extraction model. Surprisingly, we found that despite reasonable performance, the model's attention was often systematically misaligned with the words that contribute to sentiment. Thus, we directly trained the model's attention with human rationales and improved our model performance by a robust 4~8 points on all tasks we defined on our data sets. We also present a rigorous analysis of the model's attention, both trained and untrained, using novel and intuitive metrics. Our results show that untrained attention does not provide faithful explanations; however, trained attention with concisely annotated human rationales not only increases performance, but also brings faithful explanations. Encouragingly, a small amount of annotated human rationales suffice to correct the attention in our task.

研究の動機と目的

感情が全体の感情ではなく、発信元と対象の間で表現されるターゲット指向の感情分析を動機づける。
標準の注意機構が感情予測を実際に導く語と一致しているかを調査する。
KL発散損失を介してモデルの注意を人間の合理的根拠と一致させる訓練目的を提案する。
少量の人間の合理的根拠が性能と注意の忠実度の改善に十分であるかを評価する。
注意の忠実度と妥当性を定量化する指標（probes-needed および mass-needed）を開発する。

提案手法

Zhang らet al. (2017) の AttnLSTM 関係抽出フレームワークをベースラインとして構築する。
モデルの注意 Ã を人間の合理的根拠の注意 A と整合させるために、KL発散に基づく注意損失 L_attn = KL(A || Ã) を導入する。
任意で、注意監視のための多タスク合理的予測損失 L_r を比較する。
MPQA 2.0 および GFBF のデータセットで訓練し、非関係クラス ∅ のバランスを取るためにアンダーサンプリングを用いる。
人間の合理的根拠が注釈されたデータ点の異なる割合での訓練を検討する（限られた合理的根拠）。
標準的な予測指標と新規の忠実度/妥当性指標（probes-needed および mass-needed）と LIME に基づく説明検査を用いて評価する。

実験結果

リサーチクエスチョン

RQ1人間の合理的根拠による注意の監督は、ベースラインの注意機構と比較して関係抽出の性能を改善するか？
RQ2人間の合理的根拠の監督の量は、性能と注意の忠実度にどのように影響するか？
RQ3訓練済みの注意機構は本当に忠実な説明なのか、それとも人間にはもっともらしく見えるだけか？
RQ4合理的根拠の監督の効果は MPQA と GFBF のデータセットで異なるか？
RQ5新規の忠実度指標（probes-needed、mass-needed）は、訓練済みモデルと未訓練モデルの注意挙動の違いを示すことができるか？

主な発見

モデル	含む-∅ F-score	除外-∅ 精度
AttnCNN	20.3	38.7
TreeLSTM	29.9	56.1
SDP	34.2	60.7
AttnLSTM	32.7	62.4
Pred-rationales	34.9	63.0
Trained-attn	37.6	68.7

人間の合理的根拠で注意を訓練すると、未訓練の注意に比べてタスク横断で4–8ポイントの絶対的な利得をもたらす。
少数の注釈付き合理的根拠で実質的な利得を生むことができ、合理的根拠を増やすにつれて利得の増加は頭打ちになる。
GFBF データセットでは訓練済みの注意は忠実な説明を提供する（probes-needed および mass-needed が低い）。一方、MPQA では忠実性が一貫して得られない。
未訓練の注意は忠実でない場合があり、誤った語に焦点が合うことや非影響語へ多くのマスが割り当てられることがある。
訓練済みの注意は Pred-rationales（多タスク合理的予測）および他のベースラインをデータセット横断で上回る。
注意の妥当性（人間が訓練済み注意をよりもっともらしく感じる）は忠実度と乖離する可能性があり、明示的な忠実度指標の必要性を浮き彫りにする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。