Skip to main content
QUICK REVIEW

[論文レビュー] MixSarc: A Bangla-English Code-Mixed Corpus for Implicit Meaning Identification

Kazi Samin Yasar Alam, Tanbir Ahmed Chowdhury|arXiv (Cornell University)|Feb 25, 2026
Hate Speech and Cyberbullying Detection被引用数 0
ひとこと要約

MixSarc introduces a public Bangla–English code-mixed corpus with 9,087 annotated sentences for humor, sarcasm, offense, and vulgarity, plus baseline transformer and zero-shot LLM evaluations. It analyzes imbalanced minority classes and the challenges of code-mixed pragmatics.

ABSTRACT

Bangla-English code-mixing is widespread across South Asian social media, yet resources for implicit meaning identification in this setting remain scarce. Existing sentiment and sarcasm models largely focus on monolingual English or high-resource languages and struggle with transliteration variation, cultural references, and intra-sentential language switching. To address this gap, we introduce MixSarc, the first publicly available Bangla-English code-mixed corpus for implicit meaning identification. The dataset contains 9,087 manually annotated sentences labeled for humor, sarcasm, offensiveness, and vulgarity. We construct the corpus through targeted social media collection, systematic filtering, and multi-annotator validation. We benchmark transformer-based models and evaluate zero-shot large language models under structured prompting. Results show strong performance on humor detection but substantial degradation on sarcasm, offense, and vulgarity due to class imbalance and pragmatic complexity. Zero-shot models achieve competitive micro-F1 scores but low exact match accuracy. Further analysis reveals that over 42\% of negative sentiment instances in an external dataset exhibit sarcastic characteristics. MixSarc provides a foundational resource for culturally aware NLP and supports more reliable multi-label modeling in code-mixed environments.

研究の動機と目的

  • Bangla–English code-mixed テキストにおける暗黙の意味のリソース不足に対処する.
  • humor, sarcasm, offense, vulgarityをカバーする大規模で手動注釈付きコーパスを提供する.
  • コード混合データにおけるマルチラベル分類で変換器ベースのモデルとゼロショットLLMをベンチマークする.

提案手法

  • YouTubeコメント、Facebook投稿、eコマースのレビューなどのソーシャルメディアから Bangla–English code-mixed 文を収集する。
  • 絵文字削除、スクリプトベースのフィルタリング、mBERTベースのトークン分類器を用いたコード混成検証でデータをクリーンアップする。
  • 各文を3名の注釈者と多数決で4つの二値ラベルで注釈し、Fleissの κを報告する。
  • データを70/15/15の訓練/検証/テストに分割し、訓練用サブセットをバランスさせる。

実験結果

リサーチクエスチョン

  • RQ1Implicit meaningタスク(ユーモア、皮肉、攻撃、露骨表現)用の大規模なBangla–Englishコード混合コーパスを作成できるか。
  • RQ2コード混合テキストでのマルチラベルのユーモア、皮肉、攻撃、露骨表現検出における変換モデルの性能は。
  • RQ3このコード混合の暗黙の意味タスクに対するゼロショット大規模言語モデルの有効性は。
  • RQ4クラス不均衡が露骨表現や攻撃のようなマイノリティカテゴリの検出にどのように影響するか。

主な発見

ModelHumor AccHumor PrecHumor RecHumor F1Sarcasm AccSarcasm PrecSarcasm RecSarcasm F1Vulgar AccVulgar PrecVulgar RecVulgar F1Offensive AccOffensive PrecOffensive RecOffensive F1Notes
Banglish-BERT0.62320.62300.81970.70800.65690.36890.42220.39380.95090.50000.11940.19280.95080.12500.03640.0563Humor/Sarcasm strong; minority classes weak
Gemma-2B0.60120.60070.84740.70310.72870.45390.09440.15530.95090.50000.02990.05630.95890.00000.00000.0000Vulgar/Offense hard to detect
Zero-shot LLaMA-3.1-8B-Instant0.26160.46130.71720.56150.25300.50000.63910.56100.23400.46280.29210.3582----Exact-match low
Gemini-3-Flash0.25300.50000.63910.56100.25300.50000.63910.5610-------Exact-match low
LLaMA-3.3-70B-Versatile0.23400.46280.29210.35820.23400.46280.29210.3582-------Exact-match low
  • データセットには四つの二値ラベル(ユーモア、皮肉、攻撃、露骨表現)を含む9,087文が含まれる。
  • ユーモアと皮肉は攻撃/露骨表現よりも変換モデルで検出しやすく、後者はクラス不均衡の影響を受けやすい(露骨表現/攻撃のF1はほぼ0近傍)。
  • Banglish-BERTはユーモアのF1 = 0.708、皮肉のF1 = 0.3938を最も高く達成し、Gemma-2BはユーモアのF1 = 0.7031だが皮肉のリコールが非常に低い(0.0944)。
  • ゼロショットLLMsはマイクロF1が競争力を持つ(一例として約0.56程度)だが、正解一致評価は低く、マルチラベルコード混合意味タスクのプロンプティングの限界を示す。
  • 外部データセットの否定意味インスタンスの約42.13%が皮肉であり、皮肉が毒性分析と感情分析における役割を強調する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。