QUICK REVIEW

[论文解读] Detecting Hateful Memes Using a Multimodal Deep Ensemble

Vlad Sandulescu|arXiv (Cornell University)|Dec 24, 2020

Hate Speech and Cyberbullying Detection参考文献 15被引用 27

一句话总结

本文提出了一种多模态深度集成模型，通过结合微调的视觉-语言Transformer模型（特别是采用新型双向交叉注意力机制的UNITER），实现仇恨表情包的检测。该方法在Facebook AI仇恨表情包竞赛排行榜上取得最先进性能，测试集上AUROC为79.43%，准确率为74.30%。

ABSTRACT

While significant progress has been made using machine learning algorithms to detect hate speech, important technical challenges still remain to be solved in order to bring their performance closer to human accuracy. We investigate several of the most recent visual-linguistic Transformer architectures and propose improvements to increase their performance for this task. The proposed model outperforms the baselines by a large margin and ranks 5$^{th}$ on the leaderboard out of 3,100+ participants.

研究动机与目标

通过利用融合视觉与文本线索的多模态深度学习模型，提升仇恨表情包检测性能。
探究预训练数据集多样性对仇恨表情包分类微调性能的影响。
开发并评估一种新型双向交叉注意力机制，将OCR提取的文本与模型推断的图像字幕进行融合。
证明深度集成在提升仇恨表情包数据集上性能方面的有效性，超越单模型预测表现。
通过增强模型鲁棒性，应对良性混淆因子——即通过图像或文本扰动导致标签反转的 memes。

提出的方法

在仇恨表情包数据集上微调最先进的单流（VL-BERT、VLP、UNITER）和双流（LXMERT）视觉-语言Transformer架构。
提出一种双向交叉注意力机制，将OCR提取的表情包文本与视觉编码器生成的图像字幕预测对齐，以改善多模态融合。
通过使用不同随机种子重新运行模型训练，并对多个模型的预测结果取平均，构建深度集成模型。
基于预训练数据集与仇恨表情包数据集之间的领域相似性（如COCO、Conceptual Captions），选择预训练模型。
采用晚期融合策略，将集成中多个模型的预测结果平均，生成最终分类结果。
根据数据集大小和模型架构，优化训练超参数，包括初始学习率和训练步数。

实验结果

研究问题

RQ1不同的预训练数据集如何影响视觉-语言Transformer在仇恨表情包检测中的性能？
RQ2在OCR文本与模型生成的图像字幕之间引入双向交叉注意力机制，能否提升分类准确率？
RQ3与单模型相比，模型集成在仇恨表情包基准上的性能提升程度如何？
RQ4为何所提出的交叉注意力机制在UNITER上有效，而在VL-BERT或LXMERT等其他模型上无效？
RQ5多模态模型在仇恨表情包数据集上的性能与单模态基线模型及人类水平表现相比如何？

主要发现

UNITER LARGE+PA模型的深度集成实现了最高性能，测试集上AUROC为79.43%，准确率为74.30%。
UNITER PA集成模型将AUROC从单模型的75.29%提升至76.81%，证明了模型多样性的价值。
在Conceptual Captions（CC）和COCO数据集上预训练的单流模型表现优于双流模型及所有提供的基线模型。
将双向交叉注意力机制应用于UNITER后，AUROC从74.14%提升至75.29%，提升了1.15个百分点。
在高质量、噪声较少的数据集（如COCO）上进行预训练，性能优于在噪声更大的数据集（如SBU或GQA）上预训练。
在小规模仇恨表情包数据集上从零开始训练大模型导致性能较差，证实了迁移学习的必要性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。