QUICK REVIEW

[論文レビュー] Detecting Hateful Memes Using a Multimodal Deep Ensemble

Vlad Sandulescu|arXiv (Cornell University)|Dec 24, 2020

Hate Speech and Cyberbullying Detection参考文献 15被引用数 27

ひとこと要約

本論文では、特にUNITERに新規の双方向クロスアテンション機構を組み合わせた、微調整された視覚的・言語的トランスフォーマーを統合するマルチモーダルディープアンサンブルモデルを提案する。この手法は、SOTAの性能を達成し、Facebook AI Hateful Memes コンペティションのランクインで5位となり、テストセットにおいてAUC-ROC 79.43%、正答率74.30%を達成した。

ABSTRACT

While significant progress has been made using machine learning algorithms to detect hate speech, important technical challenges still remain to be solved in order to bring their performance closer to human accuracy. We investigate several of the most recent visual-linguistic Transformer architectures and propose improvements to increase their performance for this task. The proposed model outperforms the baselines by a large margin and ranks 5$^{th}$ on the leaderboard out of 3,100+ participants.

研究の動機と目的

視覚的および言語的特徴を統合するマルチモーダルディープラーニングモデルを活用して、嫌がらせの含まれたミームの検出を向上させること。
事前学習データセットの多様性が、嫌がらせの含まれたミーム分類の微調整性能に与える影響を調査すること。
OCRで抽出したテキストとモデルが推論する画像キャプションを統合する新規の双方向クロスアテンション機構の開発と評価。
Hateful Memes データセットにおける単一モデル予測を超える性能向上を実現するため、ディープアンサンブルの有効性を示すこと。
画像やテキストの摂動によってラベルが反転するような、無害な交絡要因（benign confounders）の課題に対処し、モデルのロバスト性を向上させること。

提案手法

Hateful Memes データセット上で、最先端のシングルストリーム（VL-BERT、VLP、UNITER）およびデュアルストリーム（LXMERT）の視覚的・言語的トランスフォーマーのアーキテクチャを微調整した。
OCRで抽出したミームのテキストと、視覚エンコーダーが生成する画像キャプション予測を一致させる、双方向クロスアテンション機構を提案した。
異なる乱数シードでモデル学習を繰り返し、複数モデルの予測を平均化することでディープアンサンブルを訓練した。
事前学習モデルの選定は、事前学習データセット（例：COCO、Conceptual Captions）とHateful Memes データセットとのドメイン類似度に基づいた。
アンサンブル内の複数モデルの予測を平均化するラテナル融合戦略を採用した。
データセットサイズとモデルアーキテクチャに応じて、学習率や学習ステップ数といったハイパーパrameterを最適化した。

実験結果

リサーチクエスチョン

RQ1異なる事前学習データセットは、視覚的・言語的トランスフォーマーの嫌がらせミーム検出性能にどのように影響するか？
RQ2OCRテキストとモデル生成画像キャプションの間で双方向クロスアテンション機構を適用することで、分類精度が向上するか？
RQ3単一モデルと比較して、Hateful Memes ベンチマークにおけるモデルアンサンブルの性能向上はどの程度か？
RQ4なぜ提案されたクロスアテンション機構は、UNITERでは有効であるが、VL-BERT や LXMERT では有効でないのか？
RQ5マルチモーダルモデルの性能は、ユニモーダルベースラインおよび人間水準の性能と比較してどうか？

主な発見

UNITER LARGE+PA モデルのディープアンサンブルが、テストセットで最高の性能を示し、AUC-ROC 79.43%、正答率74.30%を達成した。
UNITER PA アンサンブルモデルは、単一モデルのAUC-ROC 75.29%からアンサンブルでの76.81%に向上し、モデル多様性の価値を示した。
Conceptual Captions（CC）および COCO データセットで事前学習したシングルストリームモデルが、デュアルストリームモデルおよびすべてのベースラインを上回った。
双方向クロスアテンション機構をUNITERに適用することで、AUC-ROCが1.15ポイント上昇し、74.14%から75.29%に向上した。
ノイズが少なく高品質なデータセット（例：COCO）で事前学習すると、ノイズの多いデータセット（例：SBU や GQA）よりも高い性能が得られた。
小型のHateful Memes データセット上で大規模モデルをスクラッチから学習させた場合、性能が著しく低下した。これは、トランスファー学習の必要性を裏付けた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。