Skip to main content
QUICK REVIEW

[論文レビュー] SentiPers: A Sentiment Analysis Corpus for Persian

Pedram Hosseini, Ali Ahmadian Ramaki|arXiv (Cornell University)|Jan 23, 2018
Sentiment Analysis and Opinion Mining参考文献 30被引用数 32
ひとこと要約

SentiPers は、文書、文、および要因レベルでラベル付けされた連続的なセンチメントスコアを備えたペルシャ語の手動アノテーション済みセンチメント分析コーパスです。26,000件を超える文を含み、マルチレベルのアノテーションと定量的なセンチメント強度を備えた最初の包括的ペルシャ語コーパスであり、低リソースNLPアプリケーションにおける高度な意見マイニングを可能にします。

ABSTRACT

Sentiment Analysis (SA) is a major field of study in natural language processing, computational linguistics and information retrieval. Interest in SA has been constantly growing in both academia and industry over the recent years. Moreover, there is an increasing need for generating appropriate resources and datasets in particular for low resource languages including Persian. These datasets play an important role in designing and developing appropriate opinion mining platforms using supervised, semi-supervised or unsupervised methods. In this paper, we outline the entire process of developing a manually annotated sentiment corpus, SentiPers, which covers formal and informal written contemporary Persian. To the best of our knowledge, SentiPers is a unique sentiment corpus with such a rich annotation in three different levels including document-level, sentence-level, and entity/aspect-level for Persian. The corpus contains more than 26000 sentences of users opinions from digital product domain and benefits from special characteristics such as quantifying the positiveness or negativity of an opinion through assigning a number within a specific range to any given sentence. Furthermore, we present statistics on various components of our corpus as well as studying the inter-annotator agreement among the annotators. Finally, some of the challenges that we faced during the annotation process will be discussed as well.

研究の動機と目的

  • ペルシャ語、低リソース言語における高品質で手動アノテーション済みのセンチメントリソースの不足に対処すること。
  • 複数のドメインにわたる公式および非公式なペルシャ語の書記体をカバーする包括的なセンチメントコーパスの開発。
  • 文書レベル、文レベル、および要因レベルのマルチレベルアノテーションを通じて、高度なセンチメント分析手法の実現。
  • 定義された範囲内での連続的数値スコアを用いたセンチメント極性の定量的評価により、より高い精度を実現。
  • 厳密なアノテーター間一貫性評価とアノテーションの課題に関する詳細な文書化を通じた信頼性の確保。

提案手法

  • ペルシャ語のデジタル製品レビューから26,000件を超える文の手動アノテーション。
  • 三段階アノテーションの適用:文書レベル、文レベル、およびエンティティ/要因レベルのセンチメント分類。
  • 連続的センチメントスコア(例:-1から+1のスケール)を用いて、肯定的または否定的傾向の度合いを定量化。
  • 一貫性を確保するための厳密なアノテーションガイドラインと品質管理手順の実装。
  • FleissのKappaなどの統計的測定を用いてアノテーター間一貫性を計算し、信頼性を検証。
  • コーパスの代表性とアノテーション品質を支援するため、人口統計的および言語的データの収集と分析。

実験結果

リサーチクエスチョン

  • RQ1ペルシャ語、低リソース言語向けに、大規模でマルチレベルのセンチメントコーパスを体系的に構築する方法は何か?
  • RQ2ペルシャ語におけるマルチスケールセンチメントアノテーションで達成可能なアノテーター間一貫性の水準はどの程度か?
  • RQ3連続的センチメントスコアの導入が、NLPタスクにおけるセンチメントコーパスの有用性をどの程度向上させるか?
  • RQ4複数レベルでのセンチメントアノテーションにおいて、非公式および公式なペルシャ語テキストをアノテートする上での主な課題は何か?
  • RQ5SentiPersコーパスは、ペルシャ語のセンチメント分析モデルの学習および評価において、どの程度代表的で信頼性があるか?

主な発見

  • SentiPersコーパスには、多様な言語的スタイル(公式および非公式ペルシャ語を含む)をカバーする26,000件を超えるアノテーション済み文が含まれている。
  • アノテーター間一貫性は中程度の水準で測定され、FleissのKappaスコアは全アノテーションレベルで強い信頼性を示している。
  • -1から+1の範囲の連続的センチメントスコアの使用により、微細なセンチメント表現が可能になり、モデルの学習と評価が向上した。
  • コーパスは高い言語的多様性を示し、デジタル製品の複数の側面をカバーしており、微細なセンチメント分析を支援している。
  • 著者らは、非公式な言語、皮肉、暗黙のセンチメントのアノテーションに大きな課題があることを特定し、今後の研究のための記録を残した。
  • このコーパスは公開されており、シャリフ工科大学主催の第3回計算言語学会議で発表が承認されている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。