QUICK REVIEW

[論文レビュー] Supervised Multimodal Bitransformers for Classifying Images and Text

Douwe Kiela, Suvrat Bhooshan|arXiv (Cornell University)|Sep 6, 2019

Multimodal Machine Learning Applications参考文献 50被引用数 163

ひとこと要約

tldr: 監督付きのマルチモーダルビトランスフォーマー (MMBT) を紹介し、画像埋め込みを BERT のトークン空間に写像してテキストと画像のモダリティを統合し、 multimodal pretraining なしでテキスト重視のマルチモーダル分類タスクにおいて ViLBERT と競合する結果を達成します。

ABSTRACT

Self-supervised bidirectional transformer models such as BERT have led to dramatic improvements in a wide variety of textual classification tasks. The modern digital world is increasingly multimodal, however, and textual information is often accompanied by other modalities such as images. We introduce a supervised multimodal bitransformer model that fuses information from text and image encoders, and obtain state-of-the-art performance on various multimodal classification benchmark tasks, outperforming strong baselines, including on hard test sets specifically designed to measure multimodal performance.

研究の動機と目的

テキストが支配的なモダリティである場合の、効果的なマルチモーダル融合の必要性を動機付ける。
マルチモーダルタスクのために、テキストと画像の単一モダリティで事前学習されたエンコーダを微調整するシンプルなベースラインを提案する。
両モダリティに対する自己注意が、テキスト重視のマルチモーダル分類タスクで高い性能をもたらすことを示す。
このアプローチが ViLBERT のようなマルチモーダル事前学習モデルと競合しつつ、より単純で拡張性が高いことを示す。

提案手法

ResNet-152 画像エンコーダを使用して KM グリッドセルから N 個の画像埋め込みを生成する。
各画像埋め込みを学習行列 W_n によって D 次元の BERT 入力空間へ射影する。
テキストと画像の埋め込みを、事前学習済み BERT の重みから初期化された BERT ライクの双方向トランスフォーマーに入力されるコンテキスト埋め込みとして結合する。
タスクに適した損失関数（多クラスクロスエントロピーまたは multilabel の場合は二値クロスエントロピー）でエンドツーエンドで微調整する。
複数モダリティに対応できる柔軟な入力レイヤとセグメント埋め込みによって、可変モダリティの有無を扱う。

実験結果

リサーチクエスチョン

RQ1自己注意を介して結合された、単一モダリティで事前学習されたテキストと画像のエンコーダは、テキスト重視のマルチモーダルタスクにおいて従来のマルチモーダル融合ベースラインを上回ることができるか？
RQ2監視付きマルチモーダル融合モデルは、ViLBERT のような自己教師付きマルチモーダル事前学習方式の性能にどれだけ近づけるか？
RQ3ファインチューニング時の成分の凍結/解凍は、マルチモーダル融合品質に影響するか？
RQ4推論時にモダリティが欠如した場合、提案された image-to-BERT 空間マッピングは頑健か？
RQ5困難なマルチモーダルケースにおける MMBT と連結ベースまたはゲートベースの融合手法の比較利点は何か？

主な発見

MMBT はテキスト重視のマルチモーダルタスク（MM-IMDB、FOOD101、V-SNLI）でいくつかの強力な融合ベースラインを上回る。
MMBT は ViLBERT と競合し、時にはマルチモーダル pretraining なしでその性能に匹敵するか上回る。
Hard-subset 評価は、単一モダリティの信号が衝突しても MMBT が強力なマルチモーダル性能を維持することを示す。
凍結/解除実験は、画像エンコーダを早期に解凍する戦略がより良いマルチモーダル統合を生むことを示している。
制約されたパラメータ比較は、MMBT がより深い ConcatBert 構成を上回る可能性を示唆しており、パラメータ数だけでなく効果的な融合を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。