[论文解读] Hate Speech Detection on Vietnamese Social Media Text using the Bidirectional-LSTM Model
本文提出了一种使用FastText词嵌入的双向长短期记忆网络(Bi-LSTM)模型,用于将越南语社交媒体文本分类为三类:干净内容、攻击性言论或仇恨言论。该系统在VLSP 2019共享任务的公开测试集上取得了71.43%的F1分数,优于SVM、逻辑回归和GRU等其他模型,证明了在越南语仇恨言论检测中使用预训练嵌入的Bi-LSTM模型具有有效性。
In this paper, we describe our system which participates in the shared task of Hate Speech Detection on Social Networks of VLSP 2019 evaluation campaign. We are provided with the pre-labeled dataset and an unlabeled dataset for social media comments or posts. Our mission is to pre-process and build machine learning models to classify comments/posts. In this report, we use Bidirectional Long Short-Term Memory to build the model that can predict labels for social media text according to Clean, Offensive, Hate. With this system, we achieve comparative results with 71.43% on the public standard test set of VLSP 2019.
研究动机与目标
- 开发一种自动检测越南语社交媒体文本中仇恨言论的系统,以应对人工审核的挑战。
- 通过利用针对低资源语言(如越南语)的序列文本数据定制的深度学习架构,提升分类准确率。
- 在相同数据集上评估并比较多种模型(SVM、逻辑回归、GRU和Bi-LSTM),以确定最有效的解决方案。
- 通过预处理、词嵌入选择(FastText与baomoi.vn.model)以及超参数调优,优化模型性能。
- 为VLSP 2019越南语社交网络仇恨言论检测共享任务贡献一个具有竞争力的解决方案。
提出的方法
- 预处理包括将文本转为小写,移除URL、提及、非字母字符及部分停用词,随后进行分词并转换为整数序列。
- 使用预训练的FastText和baomoi.vn.model.txt向量作为词嵌入,以捕捉越南语词汇的语义含义。
- 核心模型为双向长短期记忆网络(Bi-LSTM),通过正向和反向处理序列,捕捉上下文依赖关系。
- Bi-LSTM模型采用分类交叉熵损失和Adam优化器进行端到端训练,输入序列被填充至固定长度。
- 通过在训练集和公开/私有测试集上的F1分数、精确率、召回率和准确率评估性能。
- 在多个模型架构(SVM、逻辑回归、GRU和Bi-LSTM)之间进行比较,每种模型均进行了超参数调优。
实验结果
研究问题
- RQ1Bi-LSTM模型能否有效将越南语社交媒体文本分类为三类:干净内容、攻击性言论或仇恨言论?
- RQ2词嵌入的选择(FastText与baomoi.vn.model.txt)如何影响Bi-LSTM模型在仇恨言论检测中的性能?
- RQ3与传统机器学习模型(如SVM、逻辑回归)及其他深度学习模型(如GRU)相比,Bi-LSTM模型在此任务中的性能如何?
- RQ4为何Bi-LSTM模型在公开测试集上的表现优于私有测试集?导致这一差异的可能因素有哪些?
- RQ5针对低资源、词形丰富的语言(如越南语),哪些预处理步骤最能提升模型的泛化能力?
主要发现
- 使用FastText词嵌入的Bi-LSTM模型在公开测试集上取得了71.43%的最高F1分数,在所有提交结果中排名第二。
- 使用FastText嵌入时,该模型在训练集上达到95.67%的准确率、85.61%的精确率、67.36%的召回率和73.84%的F1分数。
- 逻辑回归模型表现较差,在公开测试集上仅取得51.15%的F1分数,表明其在此任务中效果有限。
- GRU模型在公开测试集上取得65.01%的F1分数,优于SVM(63.87%)但不及Bi-LSTM模型。
- 使用baomoi.vn.model.txt嵌入的Bi-LSTM模型性能较低(F1分数为53.62%),表明嵌入质量对结果有显著影响。
- 尽管在公开测试集上表现良好,该模型在私有测试集上仅排名第六,表明可能存在领域偏移或对公开数据的过拟合。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。