QUICK REVIEW
[論文レビュー] Enhance Multimodal Transformer With External Label And In-Domain Pretrain: Hateful Meme Challenge Winning Solution
Ron Zhu|arXiv (Cornell University)|Dec 15, 2020
Hate Speech and Cyberbullying Detection参考文献 15被引用数 46
ひとこと要約
この研究は4つの vision-language トランスフォーマーをアンサンブルし、それらを外部ラベル(entity/race/gender)とドメイン内プリトレーニングで拡張して、Hateful Meme Detection Challenge を勝利し、データセットで0.845 AUROCを達成した。
ABSTRACT
Hateful meme detection is a new research area recently brought out that requires both visual, linguistic understanding of the meme and some background knowledge to performing well on the task. This technical report summarises the first place solution of the Hateful Meme Detection Challenge 2020, which extending state-of-the-art visual-linguistic transformers to tackle this problem. At the end of the report, we also point out the shortcomings and possible directions for improving the current methodology.
研究の動機と目的
- 画像とテキストのペアを超えた、より深いマルチモーダル理解を通じた憎悪的ミーム検出の改善を促進する。
- 外部知識情報(entity、race、gender)を取り入れて視覚・言語表現を強化する。
- ドメイン内プリトレーニングとアンサンブル法を活用してHateful Memesデータセットの性能を向上させる。
- 外部ラベルの投入が異なるVLトランスフォーマーアーキテクチャとどのように相互作用するかを評価する。
提案手法
- VL-BERT、UNITER、VILLA、ERNIE-Vil を拡張して憎悪メム検出のための4モデルアンサンブルとする。
- 外部ラベルを画像領域にリンクされた特殊なテキストトークンとして表現し、マルチモーダルバックボーンと統合する。
- タスクに合わせて調整された画像-テキストマッチング信号を提供するために UNITER の ITM ヘッドを再利用する。
- Google Vision Web Entity Detection および FairFace ラベルを通じてデータソースから追加情報を抽出する。
- 外部知識を取り入れるための将来の課題として、知識グラフ駆動アプローチ(例:MHGRN)の可能性を議論する。
実験結果
リサーチクエスチョン
- RQ1外部ラベルとドメイン内プリトレーニングは、標準のVLトランスフォーマーを超える憎悪ミーム検出を改善できるか?
- RQ2外部知識情報は、マルチモーダルなヘイトスピーチタスクにおいて異なるVLアーキテクチャとどのように相互作用するか?
- RQ3事前学習済みヘッド(例:UNITER ITM)を再利用することは、言語バイアスを低減し、一般化を改善するか?
- RQ4追加データソース(Webエンティティ、人口統計属性)のモデル性能への寄与はどの程度か?
主な発見
- 提案したアンサンブルと拡張で hateful memes データセットで 0.845 AUROC を達成。
- entity/race/gender タグの適用は拡張VL-BERTおよびERNIE-Vilの dev-seen 性能を大幅に向上させた(いくつかのシングルストリームモデルではそれほどではなかった)。
- UNITER ITM ヘッドの再利用は、ランダム初期化と比較して有利であった(dev-seen で 0.778 対 0.765 AUROC)。
- ERNIe-VilとVL-BERTは外部ラベルの恩恵を受けた(クロスモーダルフュージョンの利点による)。結果はアーキテクチャ間で異なる。
- 画像、テキスト、外部知識を組み合わせてミームの極性を捉える重要性を強調し、将来の課題として知識グラフベースのアプローチの可能性を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。