[論文レビュー] A Corpus of English-Hindi Code-Mixed Tweets for Sarcasm Detection
本稿では、機械的翻訳やスラングの混在する英語・ヒンディー語のツイートコーパスを、皮肉とトークンレベルの言語タグについて手動でアノテートした、初めてのものである。このコーパスにより、多言語のソーシャルメディアテキストにおける皮肉検出が可能になる。10分割交差検証を用いた教師ありランダムフォレスト分類器を用いて、データセット上で平均Fスコア78.4を達成し、コードミックスドのインド語における皮肉検出のベースラインを確立した。
Social media platforms like twitter and facebook have be- come two of the largest mediums used by people to express their views to- wards different topics. Generation of such large user data has made NLP tasks like sentiment analysis and opinion mining much more important. Using sarcasm in texts on social media has become a popular trend lately. Using sarcasm reverses the meaning and polarity of what is implied by the text which poses challenge for many NLP tasks. The task of sarcasm detection in text is gaining more and more importance for both commer- cial and security services. We present the first English-Hindi code-mixed dataset of tweets marked for presence of sarcasm and irony where each token is also annotated with a language tag. We present a baseline su- pervised classification system developed using the same dataset which achieves an average F-score of 78.4 after using random forest classifier and performing 10-fold cross validation.
研究の動機と目的
- 英語・ヒンディー語のコードミックスドソーシャルメディアテキストにおける皮肉検出のためのアノテート済みリソースの不足に対処すること。
- 政治、クリケット、ボリウッド関連のハッシュタグやキーワードを用いて、皮肉と言語タグ付きのトークンレベルのラベルを含む大規模コーパスを収集・手動アノテートすること。
- コードミックスドの多言語テキストにおける皮肉検出のための教師あり分類ベースラインシステムを開発すること。
- n-gram、絵文字、皮肉を示唆するトークンといったさまざまな言語的特徴量が、皮肉検出性能に与える寄与度を評価すること。
- 今後の研究を支援するため、公開可能なデータセットとモデルを提供すること。
提案手法
- 政治、クリケット、ボリウッド関連のキーワードとハッシュタグ #sarcasm および #irony を用いて、Twitter Scraper API を使用してツイートを収集した。
- アノテーター間の整合性を確認するため、皮肉の有無を 'YES' または 'NO' のラベルで手動アノテートし、Cohen’s Kappa が 0.79 を達成した。
- スペース区切りによるトークン化を行い、各トークンに英語/ヒンディー語の言語タグを付与し、手動で検証した。
- 4種類の特徴量を抽出した:文字n-gram(n=1–3、頻度≥8)、語n-gram(n=1–3、頻度≥8)、皮肉を示唆するトークン(スコア≥0.6、頻度≥5)、および27種類の事前定義済み絵文字。
- 特徴量空間を500次元に削減するため、カイ二乗適合選択法を適用し、モデル効率を向上させた。
- 全データセットに対して10分割交差検証を用いて、RBFカーネルSVM、線形SVM、ランダムフォレストの3つの分類器を訓練・評価した。
実験結果
リサーチクエスチョン
- RQ1英語・ヒンディー語のコードミックスドツイートにおける皮肉検出に、教師あり分類システムの性能はいかほどか?
- RQ2n-gram、絵文字、皮肉を示唆するトークンといった異なる言語的特徴量が、皮肉検出の正確性にどのように寄与するか?
- RQ3多言語的・コードミックスドのデータセットは、リソースが限られる言語環境における皮肉検出モデルの耐性を高められるか?
- RQ4特徴量選択は、皮肉検出タスクにおけるモデル性能にどのような影響を与えるか?
- RQ5多様な分野からなる皮肉あり・皮肉なしのツイートを含めることで、モデルの汎化性能にどのような影響があるか?
主な発見
- ランダムフォレスト分類器は、10分割交差検証を用いて、データセット上で最高の平均Fスコア78.4を達成した。
- ランダムフォレスト分類器において、語n-gramが最も優れた性能を示し、Fスコア76.7を達成した。
- RBFカーネルSVMでは、文字n-gramが最良の性能を示し、Fスコア73.1を記録した。
- 線形SVMでは、皮肉を示唆するトークンが強く性能を発揮し、Fスコア70.2を達成した。
- すべての特徴量を組み合わせた場合、RBFカーネルSVMでFスコア76.5、ランダムフォレストで78.4、線形SVMで71.7を達成した。
- データセットは高いアノテーター間整合性(Cohen’s Kappa = 0.79)を示しており、アノテーションの信頼性が裏付けられた。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。