Skip to main content
QUICK REVIEW

[論文レビュー] Deep Multimodal Fusion by Channel Exchanging

Yikai Wang, Wenbing Huang|arXiv (Cornell University)|Nov 10, 2020
Domain Adaptation and Few-Shot Learning被引用数 118
ひとこと要約

Channel-Exchanging-Network (CEN) は BNスケーリングファクターに guided されるモダリティ別サブネット間でチャネルを交換するパラメーターフリーのマルチモーダル融合手法で、 intra-modal 処理を保持しつつ強力なモダリティ間融合を実現します。

ABSTRACT

Deep multimodal fusion by using multiple sources of data for classification or regression has exhibited a clear advantage over the unimodal counterpart on various applications. Yet, current methods including aggregation-based and alignment-based fusion are still inadequate in balancing the trade-off between inter-modal fusion and intra-modal processing, incurring a bottleneck of performance improvement. To this end, this paper proposes Channel-Exchanging-Network (CEN), a parameter-free multimodal fusion framework that dynamically exchanges channels between sub-networks of different modalities. Specifically, the channel exchanging process is self-guided by individual channel importance that is measured by the magnitude of Batch-Normalization (BN) scaling factor during training. The validity of such exchanging process is also guaranteed by sharing convolutional filters yet keeping separate BN layers across modalities, which, as an add-on benefit, allows our multimodal architecture to be almost as compact as a unimodal network. Extensive experiments on semantic segmentation via RGB-D data and image translation through multi-domain input verify the effectiveness of our CEN compared to current state-of-the-art methods. Detailed ablation studies have also been carried out, which provably affirm the advantage of each component we propose. Our code is available at https://github.com/yikaiw/CEN.

研究の動機と目的

  • モダリティ間の融合を高めつつ、イントラモーダル処理とのバランスを取ることでマルチモーダル融合の改善を動機づける。
  • BNスケーリングファクターに guided されるモダリティサブネット間のパラメーターフリーなチャネル交換機構を提案する。
  • BN層を除くほぼすべてのネットワークパラメータを共有してモデルをコンパクトに保ちつつ、モダリティ固有のBN解析を可能にする。
  • RGB-Dセマン티ックセグメンテーションとマルチドメイン画像翻訳におけるCENの有効性を、広範な実験を通じて実証する。

提案手法

  • M個のモダリティサブネットが畳み込みフィルタを共有するが、BN層は独立している多モダルネットワークを定義する。
  • チャネル交換を導入し、一方のモダリティで重要度の低いチャネル(低いBN gamma)を、他のモダリティの対応チャネルの平均で置換する(式6)。
  • BNスケーリングファクターへL1のスパース性ペナルティを課し、交換されるチャネルを発見・制約する(式4)。
  • BN層を除くすべてのパラメータをサブネット間で共有して共通モダリティ情報をモデル化しつつ、モダリティ固有のチャネル重要度を保持する。
  • 整列ベースの融合と同様に、ソフトマックス制約(和が1になる)を満たすモダリティ重みα_mを学習させることでアンサンブルを訓練する。
  • チャネルが gamma が0に近づくほど冗長で交換に有利であるという理論的正当化(定理1)を提供する。

実験結果

リサーチクエスチョン

  • RQ1BNスケールファクターに guided られたチャネルレベルの交換は、イントラモーダルの伝搬を損なうことなくモダリティ間の融合を改善できるか。
  • RQ2畳み込みフィルタをモダリティ間で共有しつつBN層を公開に保つことは、コンパクトでありながら効果的なマルチモーダルモデルを生み出すか。
  • RQ3提案されたチャネル交換は、タスク(RGB-Dセグメンテーションとマルチドメイン画像翻訳)およびデータセットをまたいで頑健か。
  • RQ4BNスケールのL1正則化は、交換可能なチャネルを効果的に特定し性能を向上させるか。
  • RQ5CENは公平でパラメータ効率の良い設定の下で、従来のアグリゲーション-およびアライメントベースの融合法と比較してどうか。

主な発見

  • CENはNYUDv2およびSUN RGB-Dで、アグリゲーション基準およびアライメント基準のベースラインよりもRGB-Dセマンティックセグメンテーションを大幅に改善する。
  • プライベートBN層を保持しつつ畳み込みフィルタを共有することは性能を向上させ、共有BNはモダリティ固有の差異のために性能を悪化させる。
  • スパース性を用いた指向的なチャネル交換は大きなIoUの向上と、交換を行うアンサンブルの改善をもたらす。
  • 一部のチャネルのみを交換する(例:半分)方がイントラモーダル伝搬を維持し、全チャネルの交換よりも優れている。
  • アブレーションの結果、チャネル交換、BNベースの重要度、パラメータ共有の各要素が性能向上に寄与する。
  • 画像翻訳タスク(Taskonomyデータ)では、複数モダリティ組み合わせにおいて基準より低いFID/KIDを達成する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。