[論文レビュー] A Large Self-Annotated Corpus for Sarcasm
SARCを紹介する。Redditを基盤とした大規模な自己注釈付き皮肉検出コーパスで、130万の皮肉コメントと豊富なコンテキストを含み、ベンチマークとベースラインの結果を提供する。データ品質を分析し、他のソースと比較し、皮肉タスクにおけるベースラインと人間の性能を示す。
We introduce the Self-Annotated Reddit Corpus (SARC), a large corpus for sarcasm research and for training and evaluating systems for sarcasm detection. The corpus has 1.3 million sarcastic statements -- 10 times more than any previous dataset -- and many times more instances of non-sarcastic statements, allowing for learning in both balanced and unbalanced label regimes. Each statement is furthermore self-annotated -- sarcasm is labeled by the author, not an independent annotator -- and provided with user, topic, and conversation context. We evaluate the corpus for accuracy, construct benchmarks for sarcasm detection, and evaluate baseline methods.
研究の動機と目的
- Redditから出典し、検出研究を支援する大規模な自己注釈付き皮肉データセットを提供する。
- 他ソースと比較して自己注釈付き皮肉ラベルのデータ品質とノイズを評価する。
- ベンチマークを作成し、単純なベースラインと人間の性能を皮肉検出タスクで評価する。
提案手法
- Reddit から '/s' マーカーを注釈信号として自己注釈付き皮肉コーパスを構築する。
- ノイズを減らすフィルタリングを適用し、注釈の連鎖を避けるため皮肉コメントの子孫を除外する。
- 生データファイルと評価用の構造化されたサブセットを提供し、会話コンテキストとメタデータを含む。
- Bag-of-words、Bag-of-bigrams、文埋め込みを用いたベースライン分類器を評価し、人間の性能と比較する。
- バランスあり/なしの評価設定を作成し、トピック駆動の難易度を検証するための政治トピックサブセットを設定する。
実験結果
リサーチクエスチョン
- RQ1実用的なラベル品質を保ちながら、自己注釈付き皮肉コーパスはどれほど大きくできるか?
- RQ2文脈と対話構造が皮肉検出の性能に与える影響は?
- RQ3自己注釈付きRedditデータを用いた皮肉検出で、単純なベースラインと人間の性能はどう比較されるか?
- RQ4ラベルのバランス(バランス有り/無し)が皮肉検出ベンチマークに与える影響は?
- RQ5トピック領域(例:政治)は人間と機械の皮肉検出の検出可能性に影響するか?
主な発見
- SARCコーパスには約1.34 million 件の皮肉コメントと533 million 件の総コメントが含まれており、従来のデータセットよりはるかに大規模である。
- 手動評価は自己注釈アプローチの偽陽性率が1.0%、偽陰性率が2.0%であることを示しており、ノイズは管理可能だが顕著な課題がある。
- ベースライン法(bag-of-words、bag-of-bigrams、文埋め込み)はランダムより高い精度を示すが、人間の性能には及ばない。
- 人間の評価者は機械のベースラインより高い精度を達成し、分野別の一致度は中等程度(Fleiss kappa 約0.5、全サブレディット、約0.67は政治)である。
- 文脈情報とトピック情報は検出性能を向上させ、複数人が投票する多数決は特定のサブセットで単一トピックの性能を上回ることがある。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。