QUICK REVIEW

[論文レビュー] Multimodal Generative Learning Utilizing Jensen-Shannon Divergence

Thomas M. Sutter, Imant Daunhawer|arXiv (Cornell University)|Jun 15, 2020

Music and Audio Processing参考文献 29被引用数 7

ひとこと要約

本稿では、複数のデータタイプを共同でモデル化できる新しいマルチモーダル変分オートエンコーダーを提案する。マルチモーダル・ジェンセン・シャノン発散（mmJSD）目的関数を用い、欠損モダリティに対しても頑健なスケーラブルな自己教師付き学習を実現する。動的事前分布を導入することで単モダリティと結合事後分布を統一し、有効なELBOを最適化する。CelebAにおいて、画像とテキストの間で分離可能な表現学習と一貫性のある生成において最先端の性能を達成する。

ABSTRACT

Learning from different data types is a long-standing goal in machine learning research, as multiple information sources co-occur when describing natural phenomena. However, existing generative models that approximate a multimodal ELBO rely on difficult or inefficient training schemes to learn a joint distribution and the dependencies between modalities. In this work, we propose a novel, efficient objective function that utilizes the Jensen-Shannon divergence for multiple distributions. It simultaneously approximates the unimodal and joint multimodal posteriors directly via a dynamic prior. In addition, we theoretically prove that the new multimodal JS-divergence (mmJSD) objective optimizes an ELBO. In extensive experiments, we demonstrate the advantage of the proposed mmJSD model compared to previous work in unsupervised, generative learning tasks.

研究の動機と目的

教師なしまたは複雑な訓練スキームを必要とせず、複数モダリティのスケーラブルで自己教師付きの生成モデルを開発すること。
利用可能なデータに条件づけられた一貫性のある生成と推論を可能にすることで、欠損モダリティの課題に対処すること。
統一された目的関数を通じて単モダリティとマルチモーダル事後分布を共同でモデル化することで、表現学習を向上させること。
2つ以上のモダリティを含むスケーラブルで自己教師付きの設定において、モダリティ固有の潜在部分空間の有効性を実証すること。

提案手法

M+1個の分布に対してマルチモーダル・ジェンセン・シャノン発散（mmJSD）に基づく新しい目的関数を提案し、単モダリティとマルチモーダル事後分布の共同最適化を可能にする。
異なるモダリティからの変分事後分布を適応的に統合する動的事前分布を導入し、共有の混合分布を形成する。
mmJSDの基準分布として混合分布 fM({qν(z)}) を使用することで、すべての利用可能なモダリティからの寄与をバランスさせられる。
ELBOがmmJSD目的関数から導出される変分推論フレームワークを採用し、尤度の対数の有効な下界を保証する。
画像とテキストそれぞれに32次元のモダリティ固有の潜在空間を用い、結合表現用に共有潜在空間を設ける。
ADAMを用いて学習率0.001、256バッチサイズ、CelebAで100エポックで訓練し、重要度サンプリングや補助目的を必要とせず、エンドツーエンド最適化を実現する。

実験結果

リサーチクエスチョン

RQ1追加の教師信号や訓練目的を必要とせず、単モダリティとマルチモーダル事後分布をスケーラブルに同時に最適化できる単一の目的関数を設計できるか？
RQ2モダリティが欠損または不完全な状況下でも、提案されたmmJSD目的関数が分離可能な表現をどれほど効果的に学習できるか？
RQ3モダリティ固有の潜在部分空間の使用が、マルチモーダル生成モデルにおける表現品質と生成の一貫性を向上させるか？
RQ4動的事前分布メカニズムが、異なるモダリティからの寄与を効果的にバランスさせ、欠損データ下でも性能を維持できるか？
RQ5マルチモーダルデータセットにおいて、mmJSDベースのモデルは先行手法と比較して表現品質と生成忠実度の両面で優れているか？

主な発見

mmJSD目的関数は、画像とテキスト表現からの属性分類において最先端または優れた性能を達成し、すべての属性において高い平均精度を示した。
部分的または欠損したモダリティに条件づけた一貫性があり多様なサンプルを生成でき、動的事前分布機構により欠損データに対して頑健であることが示された。
図8および図9の定量的評価結果から、mmJSDモデルは表現学習および生成の両面で先行手法を上回っており、特に「濃い眉毛」や「5時シャドー」のような学習が難しい属性において顕著な優位性を示した。
生成されたサンプルにおける属性分類精度の高さから、モデルはモダリティ固有の部分空間で分離可能な表現を効果的に学習していることが裏付けられた。
本手法は、2つ以上のモダリティを含む自己教師付きでスケーラブルな設定において、モダリティ固有の部分空間の利点を実証的に検証した最初の手法である。
アブレーションスタディの結果、動的事前分布とmmJSD目的関数が性能に不可欠であることが確認され、それらを除去すると生成品質と表現品質が著しく低下した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。