QUICK REVIEW

[論文レビュー] Neural Aspect and Opinion Term Extraction with Mined Rules as Weak Supervision

Hongliang Dai, Yangqiu Song|arXiv (Cornell University)|Jul 7, 2019

Sentiment Analysis and Opinion Mining参考文献 31被引用数 18

ひとこと要約

本稿では、依存構造に基づくルールを自動で抽出することで得られる弱い監視情報を、人間によるアノテーションデータと組み合わせることで性能を向上させるニューラルアスペクトおよびオピニオン用語抽出モデル、RINANTEを提案する。この手法は、ラベル付きデータからルールを抽出することで大規模な補助学習データを生成し、最小限の人的ラベル付き例でのみニューラルモデルが最先端またはそれ以上の性能を達成できるようにする。

ABSTRACT

Lack of labeled training data is a major bottleneck for neural network based aspect and opinion term extraction on product reviews. To alleviate this problem, we first propose an algorithm to automatically mine extraction rules from existing training examples based on dependency parsing results. The mined rules are then applied to label a large amount of auxiliary data. Finally, we study training procedures to train a neural model which can learn from both the data automatically labeled by the rules and a small amount of data accurately annotated by human. Experimental results show that although the mined rules themselves do not perform well due to their limited flexibility, the combination of human annotated data and rule labeled auxiliary data can improve the neural model and allow it to achieve performance better than or comparable with the current state-of-the-art.

研究の動機と目的

ニューラルアスペクトおよびオピニオン用語抽出におけるラベル付き学習データの不足を解決すること。
高価な人的アノテーションに依存するのを減らすために、自動的に抽出されたルールを弱い監視情報として活用すること。
人的ラベル付きデータとルールによるアノテーションを伴う補助データの両方を統合して学習させることで、ニューラルモデルの性能を向上させること。
依存構文解析と品詞タグ付けに基づいた自動ルール抽出アルゴリズムを、アスペクトおよびオピニオン用語抽出のために開発すること。

提案手法

既存のラベル付き例の依存構文解析および品詞タグ付けの結果から、抽出ルールを自動で抽出するアルゴリズムを設計する。
抽出されたルールを用いて、大規模な未ラベル付き製品レビューをアノテートし、補助学習データを生成する。
BiLSTM-CRFニューラルモデルを、人的ラベル付きデータ（強い監視情報）とルールによるラベル付きデータ（弱い監視情報）の両方を用いて学習させる。
高精度な人的ラベル付きデータと、高カバレッジだがやや低精度なルールラベル付きデータの両方から学習することで、モデルが効果的に学習する。
標準的な指標を用いて、3つのSemEvalデータセット上でアプローチを評価する。

実験結果

リサーチクエスチョン

RQ1依存構文解析から自動抽出されたルールは、ニューラルアスペクトおよびオピニオン用語抽出を改善できるか？
RQ2限られた人的ラベル付きデータとルールによるラベル付きデータを組み合わせることで、モデルの性能にどのような影響を与えるか？
RQ3抽出されたルールによる弱い監視情報を用いることで、ニューラルモデルの一般化性能が向上するか？
RQ4人的ラベル付きデータのみで学習させる場合と比較して、抽出されたルールが性能向上にどの程度寄与するか？

主な発見

RINANTEモデルは、3つのSemEvalデータセットにおいて、現在の最先端の手法と同等またはそれ以上の性能を達成した。
人的ラベル付きデータとルールによるラベル付きデータの両方を用いて学習させることで、人的ラベル付きデータのみで学習させる場合よりも顕著に性能が向上した。
個々のルールは柔軟性に欠けるものの、効果的な弱い監視情報を提供し、一般化性能の向上に寄与した。
ルールが部分的なフレーズ（例：'microphones'）しか抽出できないにもかかわらず、モデルは複数語のアスペクト用語（例：'external microphones'）を正しく捉えることができた。
ルール抽出プロセスは効率的であり、標準的なハードウェア上では1データセットあたり10秒未塔で実行された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。