[论文解读] Gauravarora@HASOC-Dravidian-CodeMix-FIRE2020: Pre-training ULMFiT on Synthetically Generated Code-Mixed Data for Hate Speech Detection
本论文提出在基于马尔可夫链的数据生成方法下,对合成生成的泰米尔语-英语和马拉雅拉姆语-英语语码混用数据进行 ULMFiT 模型预训练,以提升德拉维达语系语码混用社交媒体文本中的仇恨言论检测效果。该方法在 Sub-task B(拉丁字母脚本)中取得 0.88 的加权 F1 分数(第二名),在 Sub-task A(混合脚本)中取得 0.91 的 F1 分数(第四名),证明了合成数据在低资源语码混用 NLP 任务中的有效性。
This paper describes the system submitted to Dravidian-Codemix-HASOC2020: Hate Speech and Offensive Content Identification in Dravidian languages (Tamil-English and Malayalam-English). The task aims to identify offensive language in code-mixed dataset of comments/posts in Dravidian languages collected from social media. We participated in both Sub-task A, which aims to identify offensive content in mixed-script (mixture of Native and Roman script) and Sub-task B, which aims to identify offensive content in Roman script, for Dravidian languages. In order to address these tasks, we proposed pre-training ULMFiT on synthetically generated code-mixed data, generated by modelling code-mixed data generation as a Markov process using Markov chains. Our model achieved 0.88 weighted F1-score for code-mixed Tamil-English language in Sub-task B and got 2nd rank on the leader-board. Additionally, our model achieved 0.91 weighted F1-score (4th Rank) for mixed-script Malayalam-English in Sub-task A and 0.74 weighted F1-score (5th Rank) for code-mixed Malayalam-English language in Sub-task B.
研究动机与目标
- 为解决泰米尔语-英语和马拉雅拉姆语-英语等德拉维达语系语码混用语言缺乏有效的仇恨言论检测系统的问题。
- 通过生成合成训练数据,克服低资源德拉维达语系语码混用 NLP 中的数据稀缺问题。
- 通过利用迁移学习在合成语码混用数据上对 ULMFiT 进行预训练,提升仇恨言论检测性能。
- 评估基于马尔可夫链的合成数据生成方法在低资源语言环境下的语码混用效果。
提出的方法
- 设计了一个三状态马尔可夫链模型,其中状态分别代表原生脚本、音译脚本和翻译文本,以模拟语码混用行为。
- 通过在维基百科文章序列上采样状态转移,利用学习到的转移概率生成合成语码混用数据。
- 使用 fast.ai 实现,从零开始在合成语码混用数据上对 ULMFiT 进行预训练,利用迁移学习进行下游分类任务。
- 采用 SentencePiece(unigram 算法)进行子词分词,以处理测试数据中的拼写变体和音译错误。
- 通过渐进式解冻和学习率调度进行微调,BPTT=70 以实现最佳收敛。
- 通过 80:20 训练-验证划分进行超参数调优,对每个任务分别优化 dropout、批量大小和学习率。
实验结果
研究问题
- RQ1通过马尔可夫过程生成的合成语码混用数据是否能有效预训练语言模型,以实现对低资源德拉维达语系语码混用语言中仇恨言论检测?
- RQ2在真实世界语码混用仇恨言论数据集上,与标准微调相比,基于合成语码混用数据预训练的 ULMFiT 在 F1 分数上表现如何?
- RQ3子词分词在多大程度上提升了对测试数据中拼写变体和音译错误的鲁棒性?
- RQ4基于并行的原生、音译和翻译维基百科文本的合成数据生成方法,是否能产生语言上合理的语码混用序列?
- RQ5从合成预训练的 ULMFiT 模型进行迁移学习,是否能在德拉维达语系语码混用仇恨言论分类任务中取得具有竞争力的性能?
主要发现
- 在 Sub-task B(拉丁字母脚本的语码混用泰米尔语-英语)中,模型取得 0.88 的加权 F1 分数,位列竞赛第二名。
- 在 Sub-task A(混合脚本的马拉雅拉姆语-英语)中,模型取得 0.91 的加权 F1 分数,总排名第四。
- 在马拉雅拉姆语-英语(拉丁字母脚本)的 Sub-task B 中,模型获得 0.74 的加权 F1 分数,位列排行榜第五。
- 预训练的 ULMFiT 模型在混合脚本马拉雅拉姆语数据上的验证困惑度为 41.22,表明其具备强大的语言建模能力。
- 合成数据生成方法产生了合理的语码混用序列,即使在缺乏大规模真实标注语码混用数据的情况下,也能实现有效的预训练。
- 子词分词的使用提升了对测试集中拼写变体和音译错误的鲁棒性,有助于模型泛化。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。