[论文解读] MixSarc: A Bangla-English Code-Mixed Corpus for Implicit Meaning Identification
MixSarc 引入了一个公开的孟加拉语–英语代码混合语料库,包含 9,087 条标注句子,用于幽默、讽刺、冒犯和粗俗检测,同时给出基线 Transformer 模型与零-shot 大语言模型评估。它分析了少数类的不平衡以及代码混合语用学所面临的挑战。
Bangla-English code-mixing is widespread across South Asian social media, yet resources for implicit meaning identification in this setting remain scarce. Existing sentiment and sarcasm models largely focus on monolingual English or high-resource languages and struggle with transliteration variation, cultural references, and intra-sentential language switching. To address this gap, we introduce MixSarc, the first publicly available Bangla-English code-mixed corpus for implicit meaning identification. The dataset contains 9,087 manually annotated sentences labeled for humor, sarcasm, offensiveness, and vulgarity. We construct the corpus through targeted social media collection, systematic filtering, and multi-annotator validation. We benchmark transformer-based models and evaluate zero-shot large language models under structured prompting. Results show strong performance on humor detection but substantial degradation on sarcasm, offense, and vulgarity due to class imbalance and pragmatic complexity. Zero-shot models achieve competitive micro-F1 scores but low exact match accuracy. Further analysis reveals that over 42\% of negative sentiment instances in an external dataset exhibit sarcastic characteristics. MixSarc provides a foundational resource for culturally aware NLP and supports more reliable multi-label modeling in code-mixed environments.
研究动机与目标
- 解决孟加拉语–英语代码混合文本中隐含意义资源匮乏的问题。
- 提供一个覆盖幽默、讽刺、冒犯和粗俗的大型人工标注语料库。
- 在代码混合数据上对基于 Transformer 的模型与零-shot 大语言模型进行多标签分类基准评估。
提出的方法
- 从社交媒体(YouTube 评论、Facebook 帖子、电子商务评论)收集,组装孟加拉语–英语代码混合句子。
- 通过表情符号移除、脚本筛选、以及基于 mbER T 的分词分类器进行代码混合有效性验证来清理数据。
- 对每条句子用四个二元标签进行标注,由三位标注者进行并投票,报告 Fleiss’ κ。
- 将数据分为训练/验证/测试集,比例为 70/15/15,并对训练子集进行平衡。
实验结果
研究问题
- RQ1是否能够为隐含意义任务(幽默、讽刺、冒犯、粗俗)创建大规模的孟加拉语–英语代码混合语料?
- RQ2Transformer 模型在代码混合文本的多标签幽默、讽刺、冒犯与粗俗检测上的表现如何?
- RQ3零-shot 大语言模型在该代码混合隐含意义任务上的有效性如何?
- RQ4类别不平衡如何影响对如粗俗和冒犯等少数类别的检测?
主要发现
| Model | Humor Acc | Humor Prec | Humor Rec | Humor F1 | Sarcasm Acc | Sarcasm Prec | Sarcasm Rec | Sarcasm F1 | Vulgar Acc | Vulgar Prec | Vulgar Rec | Vulgar F1 | Offensive Acc | Offensive Prec | Offensive Rec | Offensive F1 | Notes |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Banglish-BERT | 0.6232 | 0.6230 | 0.8197 | 0.7080 | 0.6569 | 0.3689 | 0.4222 | 0.3938 | 0.9509 | 0.5000 | 0.1194 | 0.1928 | 0.9508 | 0.1250 | 0.0364 | 0.0563 | Humor/Sarcasm strong; minority classes weak |
| Gemma-2B | 0.6012 | 0.6007 | 0.8474 | 0.7031 | 0.7287 | 0.4539 | 0.0944 | 0.1553 | 0.9509 | 0.5000 | 0.0299 | 0.0563 | 0.9589 | 0.0000 | 0.0000 | 0.0000 | Vulgar/Offense hard to detect |
| Zero-shot LLaMA-3.1-8B-Instant | 0.2616 | 0.4613 | 0.7172 | 0.5615 | 0.2530 | 0.5000 | 0.6391 | 0.5610 | 0.2340 | 0.4628 | 0.2921 | 0.3582 | - | - | - | - | Exact-match low |
| Gemini-3-Flash | 0.2530 | 0.5000 | 0.6391 | 0.5610 | 0.2530 | 0.5000 | 0.6391 | 0.5610 | - | - | - | - | - | - | - | Exact-match low | |
| LLaMA-3.3-70B-Versatile | 0.2340 | 0.4628 | 0.2921 | 0.3582 | 0.2340 | 0.4628 | 0.2921 | 0.3582 | - | - | - | - | - | - | - | Exact-match low |
- 数据集包含 9,087 条句子,具有四个二元标签(幽默、讽刺、冒犯、粗俗)。
- 幽默和讽刺更易被 Transformer 检测,冒犯/粗俗受类别不平衡影响较大(粗俗/冒犯的 F1 接近 0)。
- Banglish-BERT 在幽默 F1 为 0.708、讽刺 F1 为 0.3938;Gemma-2B 在幽默 F1 为 0.7031,但讽刺召回率很低(0.0944)。
- 零-shot LLMs 取得具有竞争力的微观 F1(如 ~0.56),但精确匹配准确度低,凸显无需任务指令就进行多标签代码混合语义推断的局限性。
- 在外部数据集中的负向情感实例约有 42.13% 为讽刺,强调讽刺在毒性与情感分析中的作用。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。