QUICK REVIEW

[論文レビュー] Inducing Domain-Specific Sentiment Lexicons from Unlabeled Corpora

William L. Hamilton, Kevin B. Clark|arXiv (Cornell University)|Jun 9, 2016

Sentiment Analysis and Opinion Mining参考文献 43被引用数 39

ひとこと要約

この論文は、ドメイン固有の単語埋め込みとラベル伝播を組み合わせることで、小さなシードセットと非ラベル付きコーパスから正確で信頼性を伴う感情極性辞書を生成するSentPropというフレームワークを紹介する。この手法は、手作業で作成された辞書と同等の最先端の性能を達成し、150年間にわたり5％を超える感情を伴う英単語が極性を完全に逆転させたことが明らかになった。また、250のRedditコミュニティにおいても顕著な感情の変動が観察された。

ABSTRACT

A word's sentiment depends on the domain in which it is used. Computational social science research thus requires sentiment lexicons that are specific to the domains being studied. We combine domain-specific word embeddings with a label propagation framework to induce accurate domain-specific sentiment lexicons using small sets of seed words, achieving state-of-the-art performance competitive with approaches that rely on hand-curated resources. Using our framework we perform two large-scale empirical studies to quantify the extent to which sentiment varies across time and between communities. We induce and release historical sentiment lexicons for 150 years of English and community-specific sentiment lexicons for 250 online communities from the social media forum Reddit. The historical lexicons show that more than 5% of sentiment-bearing (non-neutral) English words completely switched polarity during the last 150 years, and the community-specific lexicons highlight how sentiment varies drastically between different communities.

研究の動機と目的

計算的社会科学分野において、文脈依存の感情を伴うため、一般化された辞書がバイアスを生じるという重要な課題に対処すること。
高価な手作業によるアノテーションやドメイン特化した監視情報に依存せずに、スケーラブルで低リソースな正確な感情辞書を生成するための方法を開発すること。
時間的（歴史的テキスト）および社会的コミュニティ（オンラインフォーラム）の観点から感情の変動を定量化し、単語の感情が大規模に変化する様子を明らかにすること。
ドメイン固有の文脈における感情分析のための、原理的かつ不確実性を考慮したフレームワークを研究者に提供すること。
コミュニティ利用を想定し、事前学習済みの辞書とベンチマーク実装を備えた包括的なツールキット（SocialSent）をリリースすること。

提案手法

SentPropは、高品質なドメイン固有の単語埋め込みとラベル伝播アルゴリズムを組み合わせ、小さなシード語の感情スコアを語彙全体に伝播させる。
この手法は、単語をノードとし、単語埋め込みから導かれる意味的類似度をエッジとするグラフ表現を用いる。
感情スコアは、ラベル伝播の定式化に従い反復的に伝播され、安定した感情値に収束する。
各感情スコアの信頼区間を推定するための新規なブートストラップサンプリングフレームワークが導入され、生成された辞書における不確実性が定量化される。
このフレームワークは、2つの大規模な研究に応用された：150年間の英語（COHA）における歴史的感情分析と、250のRedditサブレdditにおけるコミュニティ固有の感情誘導。
極性の閾値（肯定／否定／中立）を決定するためにクラス質量正規化が用いられ、完全な極性反転の検出が可能になった。

実験結果

リサーチクエスチョン

RQ11850–1880年と1970–2000年の間で、単語の感情極性はどのように変化するのか？ 150年間にわたり、完全に極性が反転した単語の割合はどの程度か？
RQ2異なるオンラインコミュニティ間で感情はどの程度異なるのか？また、コミュニティ固有の辞書と一般的な感情辞書にはどのような相違があるか？
RQ3単語埋め込みとラベル伝播を組み合わせた半教師ありフレームワークは、手作業で作成されたリソースに依存せずに、感情辞書誘導において最先端の性能を達成できるか？
RQ4ドメイン固有の辞書における感情スコアの不確実性を、原理的かつ一貫した方法でどのように定量化できるか？
RQ5どのような歴史的・社会的要因が、感情を伴う単語における意味的シフト（好転・悪化）を引き起こしているのか？

主な発見

1850–1880年と1970–2000年の間で、感情を伴う（中立でない）英単語の5％以上が完全に極性を反転させ、時間的変化に伴う大規模な感情変化を示した。
『lean』という語は好転を経験し、弱さを意味する否定的意味から、筋肉質さや健康を意味する肯定的意味に移行した。
『pathetic』という語は悪化を経験し、弱さや不十分さを強調する否定的意味が強化され、かつては情熱を意味する中立的または肯定的意味を持っていた。
『sorry』や『worldly』といった語も意味的薄義化と再解釈を経験し、否定的から中立的または肯定的意味に変化した。
250のRedditサブレdditにおけるコミュニティ固有の感情辞書は、感情の顕著な変動を示した。たとえば『soft』という語は、スポーツコミュニティでは否定的、おもちゃ動物コミュニティでは肯定的という逆の感情を伴った。
SentPropは、わずかなシードセットとやや小さなコーパス（約10^7トークン）を用いても、手作業で作成された辞書と同等の最先端の性能を達成した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。