[論文レビュー] MixSarc: A Bangla-English Code-Mixed Corpus for Implicit Meaning Identification
MixSarc introduces a public Bangla–English code-mixed corpus with 9,087 annotated sentences for humor, sarcasm, offense, and vulgarity, plus baseline transformer and zero-shot LLM evaluations. It analyzes imbalanced minority classes and the challenges of code-mixed pragmatics.
Bangla-English code-mixing is widespread across South Asian social media, yet resources for implicit meaning identification in this setting remain scarce. Existing sentiment and sarcasm models largely focus on monolingual English or high-resource languages and struggle with transliteration variation, cultural references, and intra-sentential language switching. To address this gap, we introduce MixSarc, the first publicly available Bangla-English code-mixed corpus for implicit meaning identification. The dataset contains 9,087 manually annotated sentences labeled for humor, sarcasm, offensiveness, and vulgarity. We construct the corpus through targeted social media collection, systematic filtering, and multi-annotator validation. We benchmark transformer-based models and evaluate zero-shot large language models under structured prompting. Results show strong performance on humor detection but substantial degradation on sarcasm, offense, and vulgarity due to class imbalance and pragmatic complexity. Zero-shot models achieve competitive micro-F1 scores but low exact match accuracy. Further analysis reveals that over 42\% of negative sentiment instances in an external dataset exhibit sarcastic characteristics. MixSarc provides a foundational resource for culturally aware NLP and supports more reliable multi-label modeling in code-mixed environments.
研究の動機と目的
- Bangla–English code-mixed テキストにおける暗黙の意味のリソース不足に対処する.
- humor, sarcasm, offense, vulgarityをカバーする大規模で手動注釈付きコーパスを提供する.
- コード混合データにおけるマルチラベル分類で変換器ベースのモデルとゼロショットLLMをベンチマークする.
提案手法
- YouTubeコメント、Facebook投稿、eコマースのレビューなどのソーシャルメディアから Bangla–English code-mixed 文を収集する。
- 絵文字削除、スクリプトベースのフィルタリング、mBERTベースのトークン分類器を用いたコード混成検証でデータをクリーンアップする。
- 各文を3名の注釈者と多数決で4つの二値ラベルで注釈し、Fleissの κを報告する。
- データを70/15/15の訓練/検証/テストに分割し、訓練用サブセットをバランスさせる。
実験結果
リサーチクエスチョン
- RQ1Implicit meaningタスク(ユーモア、皮肉、攻撃、露骨表現)用の大規模なBangla–Englishコード混合コーパスを作成できるか。
- RQ2コード混合テキストでのマルチラベルのユーモア、皮肉、攻撃、露骨表現検出における変換モデルの性能は。
- RQ3このコード混合の暗黙の意味タスクに対するゼロショット大規模言語モデルの有効性は。
- RQ4クラス不均衡が露骨表現や攻撃のようなマイノリティカテゴリの検出にどのように影響するか。
主な発見
| Model | Humor Acc | Humor Prec | Humor Rec | Humor F1 | Sarcasm Acc | Sarcasm Prec | Sarcasm Rec | Sarcasm F1 | Vulgar Acc | Vulgar Prec | Vulgar Rec | Vulgar F1 | Offensive Acc | Offensive Prec | Offensive Rec | Offensive F1 | Notes |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Banglish-BERT | 0.6232 | 0.6230 | 0.8197 | 0.7080 | 0.6569 | 0.3689 | 0.4222 | 0.3938 | 0.9509 | 0.5000 | 0.1194 | 0.1928 | 0.9508 | 0.1250 | 0.0364 | 0.0563 | Humor/Sarcasm strong; minority classes weak |
| Gemma-2B | 0.6012 | 0.6007 | 0.8474 | 0.7031 | 0.7287 | 0.4539 | 0.0944 | 0.1553 | 0.9509 | 0.5000 | 0.0299 | 0.0563 | 0.9589 | 0.0000 | 0.0000 | 0.0000 | Vulgar/Offense hard to detect |
| Zero-shot LLaMA-3.1-8B-Instant | 0.2616 | 0.4613 | 0.7172 | 0.5615 | 0.2530 | 0.5000 | 0.6391 | 0.5610 | 0.2340 | 0.4628 | 0.2921 | 0.3582 | - | - | - | - | Exact-match low |
| Gemini-3-Flash | 0.2530 | 0.5000 | 0.6391 | 0.5610 | 0.2530 | 0.5000 | 0.6391 | 0.5610 | - | - | - | - | - | - | - | Exact-match low | |
| LLaMA-3.3-70B-Versatile | 0.2340 | 0.4628 | 0.2921 | 0.3582 | 0.2340 | 0.4628 | 0.2921 | 0.3582 | - | - | - | - | - | - | - | Exact-match low |
- データセットには四つの二値ラベル(ユーモア、皮肉、攻撃、露骨表現)を含む9,087文が含まれる。
- ユーモアと皮肉は攻撃/露骨表現よりも変換モデルで検出しやすく、後者はクラス不均衡の影響を受けやすい(露骨表現/攻撃のF1はほぼ0近傍)。
- Banglish-BERTはユーモアのF1 = 0.708、皮肉のF1 = 0.3938を最も高く達成し、Gemma-2BはユーモアのF1 = 0.7031だが皮肉のリコールが非常に低い(0.0944)。
- ゼロショットLLMsはマイクロF1が競争力を持つ(一例として約0.56程度)だが、正解一致評価は低く、マルチラベルコード混合意味タスクのプロンプティングの限界を示す。
- 外部データセットの否定意味インスタンスの約42.13%が皮肉であり、皮肉が毒性分析と感情分析における役割を強調する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。