[論文レビュー] HUMOR: A Crowd-Annotated Spanish Corpus for Humor Analysis.
本稿では、インターネット上から1,300人のアノテーターが参加したクラウドアノテーションを経て収集された27,000件のツイートから構成されるスペイン語のコロケーション、HUMORを紹介する。このコロケーションには、ユーモアのラベルと面白さスコアが付与されており、Krippendorffのアルファ係数が0.5710に達する。本研究は、自然言語処理分野におけるユーモア検出および主観性分析の基盤的リソースを提供する。
Computational Humor involves several tasks, such as humor recognition, humor generation, and humor scoring, for which it is useful to have human-curated data. In this work we present a corpus of 27,000 tweets written in Spanish and crowd-annotated by their humor value and funniness score, with about four annotations per tweet, tagged by 1,300 people over the Internet. It is equally divided between tweets coming from humorous and non-humorous accounts. The inter-annotator agreement Krippendorff's alpha value is 0.5710. The dataset is available for general use and can serve as a basis for humor detection and as a first step to tackle subjectivity.
研究の動機と目的
- 計算ユーモア研究を支援するため、ユーモアおよび面白さスコアのラベルが付与された大規模かつ公開可能なスペイン語ツイートコーパスの構築を目的とする。
- 特にスペイン語を含む多言語ユーモアデータセットの不足に応えることを目的とする。
- 低リソース言語におけるユーモア検出、ユーモアスコアリング、および主観的言語理解の研究を可能にする。
- ソーシャルメディアテキストにおけるユーモア認識および主観性分析のモデル評価のベンチマークを提供する。
提案手法
- コーパスは、ユーモラスおよびノンユーモラスなスペイン語ツイッター・アカウントから収集された27,000件のツイートを用いて構築された。両者を均等にバランスさせた。
- 各ツイートに対して、1ユーザーあたり約4つのアノテーションが行われ、ユーモア価値(ユーモラス/ノンユーモラス)と数値スケールによる面白さスコアが付与された。
- 広範な言語的カバレッジと多様性を確保するため、インターネット上から1,300名の個人によるクラウドソーシングを用いてアノテーションを収集した。
- アノテーター間一致度はKrippendorffのアルファを用いて測定され、0.5710の値が得られ、中程度から高い一貫性があることが示された。
- このデータセットは公開されており、ユーモア検出およびスコアリングモデルの学習・評価に使用可能である。
実験結果
リサーチクエスチョン
- RQ1スペイン語のツイートに対してユーモアおよび面白さをラベル付けする際、アノテーター間の一致度はどの程度か?
- RQ2クラウドソーシングアプローチは、スペイン語のソーシャルメディアテキストにおける信頼性の高いユーモアアノテーションを生成するのにどの程度有効か?
- RQ3このコーパスは、スペイン語のような低リソース言語における計算ユーモアシステムの開発をどの程度支援できるか?
- RQ4このデータセットは、NLP分野におけるユーモア検出および主観性分析の実用的ベンチマークとして機能できるか?
主な発見
- HUMORコーパスには27,000件のスペイン語ツイートが含まれており、ユーモラスとノンユーモラスの両方のソースが均等に割り当てられており、バランスの取れた表現が保証されている。
- 各ツイートに対して平均4件のアノテーションが行われ、信頼性の高いラベル付けが可能になった。
- Krippendorffのアルファを用いたアノテーター間一致度は0.5710に達し、アノテーター間の一致が中程度から高い水準にあることが示された。
- このデータセットは一般公開されており、ユーモア検出および主観的言語理解分野の研究を支援する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。