QUICK REVIEW

[論文レビュー] Vilio: State-of-the-art Visio-Linguistic Models applied to Hateful Memes

Niklas Muennighoff|arXiv (Cornell University)|Dec 14, 2020

Hate Speech and Cyberbullying Detection参考文献 22被引用数 40

ひとこと要約

Vilioは統一されたコードベースで複数の最先端の視覚言語モデルを実装し、それらをHateful Memes Datasetに適用して、アンサンブルによって競技で2位を獲得する。

ABSTRACT

This work presents Vilio, an implementation of state-of-the-art visio-linguistic models and their application to the Hateful Memes Dataset. The implemented models have been fitted into a uniform code-base and altered to yield better performance. The goal of Vilio is to provide a user-friendly starting point for any visio-linguistic problem. An ensemble of 5 different V+L models implemented in Vilio achieves 2nd place in the Hateful Memes Challenge out of 3,300 participants. The code is available at https://github.com/Muennighoff/vilio.

研究の動機と目的

ヘイトフルミームと視覚言語タスクのためのユーザーフレンドリーで統一されたV+L研究フレームワークの開発を促進する。
強力なベースラインと洞察を確立するため、Hateful Memes Dataset上の複数の最先端V+Lモデルを評価する。
特徴量ベースの準備、モデル特有の適応、およびアンサンブル戦略による性能向上を示す。

提案手法

Hugging Face transformersに類似した配置で、12個の視覚言語モデルのコードベースを組み立てる。
detectron2を用いて画像特徴を抽出し、複数のRoI構成とVisualGenome事前学習バリアントを使用する。
二値交差エントロピー損失、Adam最適化アルゴリズム、小さなバッチサイズ、学習率スケジュールでモデルをファインチューニングする。いくつかのモデルには勾配クリッピングと確率的重み平均を適用する。
適用可能な場合には、更新されたtransformersライブラリとHateful Memesの事前学習に合わせて、ERNIE-ViL、UNITER、OSCAR、VisualBERT、および他のベースラインを修正・適応する。
OCR由来のミームテキスト特徴を組み込み、利用可能な場合はタスク固有の事前学習を使用する。各モデルに合わせて視覚/言語トークンの扱いを調整する（例：視覚トークンのタイプを別々に、GeLU活性化など）。
Simple Averaging、Rank Averaging、Power Averaging、Simplex Optimization を用いて種とモデルを横断して予測をアンサンブルし、dev/testセットのAUROCを最大化する。

実験結果

リサーチクエスチョン

RQ1共通のコードベースに適用した場合、最先端の視覚言語モデルはHateful Memes Datasetでどの程度の性能を示すか？
RQ2準備手順（Detectron2特徴量、OCRテキスト）やモデル固有の調整がAUROC性能に与える影響は？
RQ3多様なV+Lモデルを横断するアンサンブルにより、このタスクで人間のベースラインに近づく、あるいはそれを上回る性能を達成できるか？
RQ4マルチモーダルな嫌悪表現検出のための現在のV+Lアーキテクチャの限界は何か、今後の研究はそれをどう改善できるか？

主な発見

Model	AUROC (Validation)	AUROC (Test)
ERNIe-ViL Large	78.76	80.59
UNITER	77.75	78.65
OSCAR	77.16	77.30
VisualBERT	75.49	75.75
Vilio (VisualBERT variant)	75.49	75.75
Ensemble	81.56	82.52

5つのV+Lモデルのアンサンブルがテストセットで82.52 AUROCを達成し、人間の性能との差を縮める。
個別モデルはテストセットで70代後半から80代前半のAUROCを達成（例：ERNIE-ViL Large 80.59、UNITER 78.65）。
ERNIe-ViLベースのモデルは個別性能の中でも最強クラスとなる傾向があり、アンサンブルが最良の結果をもたらす。
事前学習の調整、更新されたトランスフォーマーライブラリ、タスク固有のトレーニングの最適化が、実測可能なAUROCの向上に寄与する。
シードと特徴量のバリエーションを含めるとアンサンブルは19の訓練済みモデルから成り、Simplex Optimizationが最終予測を改善する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。