QUICK REVIEW

[論文レビュー] Building a Sentiment Corpus of Tweets in Brazilian Portuguese

Henrico Bertini Brum, Maria das Graças Volpe Nunes|arXiv (Cornell University)|Dec 24, 2017

Sentiment Analysis and Opinion Mining参考文献 11被引用数 30

ひとこと要約

本稿では、テレビ番組分野のブラジルポルトガル語ツイート15,000件を手動でアノテートした感情分析コーパス「TweetSentBR」を紹介する。ポジティブ、ニュートラル、ネガティブの3クラスに分類されたこのコーパスは、3つの機械学習手法（ナイーブベイズ、SVM、ハイブリッド手法）を用いて評価され、二値分類では82.06%の正解率と80.99%のF-measureを達成し、三値分類では64.62%の正解率と59.85%のF-measureを示した。これは、ブラジルポルトガル語における感情分析の分野において貴重なリソースを提供する。

ABSTRACT

The large amount of data available in social media, forums and websites motivates researches in several areas of Natural Language Processing, such as sentiment analysis. The popularity of the area due to its subjective and semantic characteristics motivates research on novel methods and approaches for classification. Hence, there is a high demand for datasets on different domains and different languages. This paper introduces TweetSentBR, a sentiment corpora for Brazilian Portuguese manually annotated with 15.000 sentences on TV show domain. The sentences were labeled in three classes (positive, neutral and negative) by seven annotators, following literature guidelines for ensuring reliability on the annotation. We also ran baseline experiments on polarity classification using three machine learning methods, reaching 80.99% on F-Measure and 82.06% on accuracy in binary classification, and 59.85% F-Measure and 64.62% on accuracy on three point classification.

研究の動機と目的

ソーシャルメディアのテキストにおける高品質で手動アノテート済みの感情分析コーパスが不足している現状に対処すること。
テレビ番組分野に特化したバランスの取れたコーパスを構築し、ポルトガル語における感情分析研究を支援すること。
現実のデータの複雑さを反映させるためにニュートラルクラスを含めることで、分類器の頑健性を向上させること。
二値および三値分類タスクにおける機械学習モデルの評価を可能にすること。
ブラジルポルトガル語における皮肉、スラング、ソーシャルメディア固有の表現といった言語現象に関する研究を支援すること。

提案手法

コーパスは、ブラジルのテレビ番組に関連する15,000件のツイートをTwitterのAPIを用いて収集することで構築された。
7名のアノテーターが、標準化されたガイドラインに従って、ポジティブ、ニュートラル、ネガティブの3クラスに手動でアノテートした。これにより、アノテーター間の一貫性が確保された。
アノテーションプロセスにはトレーニング、ガイドラインの策定、見直しを含め、ラベル付けの誤りを最小限に抑え、一貫性を向上させた。
3つの機械学習モデル—ナイーブベイズ、線形カーネルを用いたSVM、および語彙ルールとSVMを組み合わせたハイブリッド分類器—を評価した。
特徴表現には、バイナリーバッグ・オブ・ワーズモデル、感情分析用の語彙、絵文字、品詞（POS）タグを用いた。
ベースライン実験はScikit-learnを用い、二値分類および三値分類タスクの両方においてF-measureと正解率で性能を測定した。

実験結果

リサーチクエスチョン

RQ1ブラジルポルトガル語のテレビ番組関連ツイートにおける感情分類において、標準的な機械学習モデルはどの程度有効であるか？
RQ2語彙ルールとSVMを組み合わせたハイブリッド手法を用いることで、ブラジルポルトガル語の感情分類でどの程度の性能が達成できるか？
RQ3ニュートラルクラスの導入が、感情分析における分類性能およびモデルの一般化能力にどのように影響するか？
RQ4感情語、絵文字、特定の表現といった言語的特徴は、ブラジルポルトガル語のポジティブ、ニュートラル、ネガティブなツイートをどのように区別するか？
RQ5このコーパスは、皮肉、スラング、ユーザー固有の表現といった現実のソーシャルメディアの言語現象をどの程度反映しているか？

主な発見

SVM分類器を用いた二値分類では、F-measureが80.99%、正解率が82.06%を達成した。
三値分類（ポジティブ、ニュートラル、ネガティブ）では、ナイーブベイズとSVMを用いた場合に最良のF-measureが59.85%、正解率が64.62%となった。
ハイブリッド分類器は、二値分類で76.84%の正解率と76.59%のF-measureを達成し、SVMに比べて中程度の性能を示した。
ポジティブクラスにおいて最も情報量の多い語は「amo」（愛する）、「fofura」（かわいらしい）、「linda」（美しい）であり、ネガティブクラスでは「lixo」（ゴミ）、「péssimo」（ひどい）、「tirem」（取り除く）といった語が顕著であった。
ニュートラルクラスには、番組名、ユーザーネーム、および「aparecer」（現れる）のような中立的な動詞が高頻度で登場し、意見を含まないコンテンツを反映していた。
本コーパスは、ニュートラルクラスの導入と、新規の分野（ブラジルのテレビ番組）に特化している点で、既存のリソースとは異なり、新たな言語的およびモデリングの課題を提供している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。