QUICK REVIEW

[論文レビュー] Gated Multimodal Units for Information Fusion

John Arévalo, Thamar Solorio|arXiv (Cornell University)|Feb 7, 2017

Explainable Artificial Intelligence (XAI)被引用数 51

ひとこと要約

本論文は、Gated Multimodal Unit (GMU) を導入し、ニューラルネットワーク内の複数のモダリティを統合する微分可能なゲーティング機構を提案し、プロットとポスターを用いたマルチモーダル映画ジャンル分類でその効果を示し、いくつかの融合ベースラインを上回る。

ABSTRACT

This paper presents a novel model for multimodal learning based on gated neural networks. The Gated Multimodal Unit (GMU) model is intended to be used as an internal unit in a neural network architecture whose purpose is to find an intermediate representation based on a combination of data from different modalities. The GMU learns to decide how modalities influence the activation of the unit using multiplicative gates. It was evaluated on a multilabel scenario for genre classification of movies using the plot and the poster. The GMU improved the macro f-score performance of single-modality approaches and outperformed other fusion strategies, including mixture of experts models. Along with this work, the MM-IMDb dataset is released which, to the best of our knowledge, is the largest publicly available multimodal dataset for genre prediction on movies.

研究の動機と目的

マルチモーダル表現学習を喚起し、単純な融合戦略の限界を示す。
中間表現のモダリティ固有ゲート活性化を学習するトレーニング可能なGMUモジュールを提案する。
プロットとポスターデータを用いたマルチラベルの映画ジャンル分類タスクでGMUの有効性を示す。
ジャンル予測のマルチモーダル研究を支援するためMM-IMDbデータセットを公開する。

提案手法

GMU を導入する: h_v = tanh(W_v x_v), h_t = tanh(W_t x_t), z = sigmoid(W_z [x_v, x_t]), h = z * h_v + (1 - z) * h_t; さらにモダリティを増やすことができる。
テキストは n-gram、Word2Vec（pretrained Google embeddings）または RNN バリアントで表現し、視覚情報は VGG 特徴（転移学習）またはエンドツーエンド CNN で表現する。
統合表現に対して maxout 活性化を持つ多層パーセプトロンを学習し、バッチ正規化、ドロップアウト、ADAM 最適化を用いる。
MMU を評価する: ...Multilabel... MM-IMDb データセットを用いた評価、平均融合、結合、線形和、Mixture-of-Experts (MoE) などのベースラインと比較。
実験のため MM-IMDb マルチモーダルデータセット（プロット、ポスター、ジャンル、および50の追加メタデータ）を公開・活用する。

実験結果

リサーチクエスチョン

RQ1GMU は中間表現のモダリティを重みづけする入力依存のゲート活性化を学習できるか？
RQ2GMU は標準的な融合戦略（早期融合/遅期融合）および MoE に対して、マルチモーダル分類タスクで上回るか？
RQ3現実世界のマルチラベルマルチモーダルデータセット（MM-IMDb）における映画ジャンル予測での GMU の性能はどうか？
RQ4GMU を用いた場合、ジャンルごとにテキストと視覚モダリティの寄与のバランスはどうなるか？

主な発見

GMU はマルチラベルの映画ジャンルタスクにおいて、単一モダリティのベースラインより macro F-score を改善する。
GMU は MM-IMDb データセットで、単純結合、平均融合、線形和、MoE バリアントなど他の融合戦略を上回る。
ジャンルレベルの分析では、多くのジャンルで GMU がより高い macro F-scores をもたらし、全体として 23 ジャンル中 16 ジャンルで単一モダリティと比較してマルチモーダル性能を向上させる。
ゲート活性化の分析は、モデルが一般にテキスト情報に傾斜しており、特定のジャンル（例: Animation, Family）は視覚情報の影響が強いことを示す。
MM-IMDb データセット（プロット、ポスター、メタデータを備えた 25,959 件の映画）は、さらなるマルチモーダル研究のためにコミュニティへ公開される。
合成実験は、GMU が特定のサンプルにとってどのモダリティが有用かを表す潜在変数を学習することを示し、ゲート活性化とモダリティ有用性の相関を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。