QUICK REVIEW

[論文レビュー] MultiBooked: A Corpus of Basque and Catalan Hotel Reviews Annotated for Aspect-level Sentiment Classification

Jeremy Barnes, Patrik Lambert|arXiv (Cornell University)|Mar 22, 2018

Sentiment Analysis and Opinion Mining被引用数 29

ひとこと要約

本稿では、568件のカタラーノ語および343件のバスク語のホテルレビューから構成され、アスペクトレベルのセンチメント分類のためにアノテートされた、高品質な新規コーパス「MultiBooked」を紹介する。このデータセットは、リソースが乏しい言語における教師ありアスペクトレベルのセンチメント分析に不可欠なリソースを提供し、既存のマルチリンガルコーパスと互換性のある標準化されたアノテーションを備え、マルチリンガルおよびクロスリンガルNLP研究におけるパフォーマンス向上を可能にする。

ABSTRACT

While sentiment analysis has become an established field in the NLP community, research into languages other than English has been hindered by the lack of resources. Although much research in multi-lingual and cross-lingual sentiment analysis has focused on unsupervised or semi-supervised approaches, these still require a large number of resources and do not reach the performance of supervised approaches. With this in mind, we introduce two datasets for supervised aspect-level sentiment analysis in Basque and Catalan, both of which are under-resourced languages. We provide high-quality annotations and benchmarks with the hope that they will be useful to the growing community of researchers working on these languages.

研究の動機と目的

カタラーノ語やバスク語のようなリソースが乏しい言語における高品質でアスペクトレベルのセンチメントがアノテートされたリソースの不足を是正すること。
標準化されたマルチリンガル互換データセットを提供することで、リソースが乏しい言語における教師ありアスペクトレベルのセンチメント分析を支援すること。
既存のマルチリンガルコーパスと互換性を持つリソースを構築することで、クロスリンガルセンチメント分析の進展を可能にすること。
非英語・変形豊富な言語におけるモデルのトレーニングおよび評価のベンチマークを提供することで、マルチリンガルNLPにおけるパフォーマンス向上を図ること。
既存リソースが限られているイベリア諸語における意見マイニングおよびセンチメント分析の研究を促進すること。

提案手法

Booking.comおよび35の旅行・レビュー系Webサイト（AirbnbやTripAdvisorを含む）からホテルレビューをクロールした。
ストップワード数を用いた軽量な言語識別法を適用し、言語（カタラーノ語またはバスク語）別にレビューをフィルタリングし、スペイン語および混合言語テキストを除外した。
アノテーションに十分な内容を確保するため、7語未満のレビューを除外した。
Ixa-pipesを用いてトークン化、品詞タグ付け、語形還元の前処理を実施した。
標準化されたスキームに従い、各レビューに対してアスペクトレベルのセンチメントをアノテートした。これには、意見の対象、極性、センチメントを示すフレーズを特定する作業を含む。
最終的なデータセットをKAF/NAF形式（レイヤードされた言語的アノテーションを可能にするスタンドアロンXMLフォーマット）に格納した。このフォーマットにより、極性、対象、および主張者（ホールダー）のアノテーションが可能になった。

実験結果

リサーチクエスチョン

RQ1リソースが乏しい言語（バスク語およびカタラーノ語）に対して、高品質でアスペクトレベルのセンチメントがアノテートされたコーパスを構築することは可能か？
RQ2本新規コーパスを用いてトレーニングされた教師ありアスペクトレベルのセンチメント分類モデルの性能は、バスク語およびカタラーノ語においてどのように比較されるか？
RQ3このコーパスは、複数言語にまたがるクロスリンガルセンチメント分析をどの程度サポートできるか？
RQ4このコーパスにおけるアノテーター間整合性の水準はどの程度か？また、アノテーションの信頼性をどのように裏付けているか？
RQ5KAF/NAFフォーマットの構造は、マルチリンガルNLPパイプラインにおけるアノテート済みデータの統合および再利用をどのように支援するか？

主な発見

著者らは、568件のカタラーノ語および343件のバスク語のホテルレビューを収集・キュレートし、高品質でマルチリンガルなデータセットを構築した。
このコーパスは、http://hdl.handle.net/10230/33928およびGitHubリポジトリを通じて公開されており、研究者による広範なアクセスを可能にしている。
アノテーター間整合性はFleissのKappa係数を用いて測定され、実に高い一致度が得られ、アノテーションの信頼性が裏付けられた。
データセットはKAF/NAFフォーマットで構造化されており、品詞タグ、語形還元、意見の対象などの豊富な言語的アノテーションを可能にしている。
本コーパスは、カタラーノ語およびバスク語におけるアスペクトレベルのセンチメント分析において、類例のない初のものであり、マルチリンガルNLPリソースにおける重要な空白を埋めている。
本データセットは、将来的なクロスリンガルセンチメント分析研究を支援し、リソースが乏しい環境における教師ありモデルのベンチマークを提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。