Skip to main content
QUICK REVIEW

[论文解读] Deep Multimodal Fusion by Channel Exchanging

Yikai Wang, Wenbing Huang|arXiv (Cornell University)|Nov 10, 2020
Domain Adaptation and Few-Shot Learning被引用 118
一句话总结

引入 Channel-Exchanging-Network (CEN),一种无参数的多模态融合方法,按 BN 缩放因子引导在模态特定子网络之间交换通道,实现强互模态融合,同时保持模态内处理。

ABSTRACT

Deep multimodal fusion by using multiple sources of data for classification or regression has exhibited a clear advantage over the unimodal counterpart on various applications. Yet, current methods including aggregation-based and alignment-based fusion are still inadequate in balancing the trade-off between inter-modal fusion and intra-modal processing, incurring a bottleneck of performance improvement. To this end, this paper proposes Channel-Exchanging-Network (CEN), a parameter-free multimodal fusion framework that dynamically exchanges channels between sub-networks of different modalities. Specifically, the channel exchanging process is self-guided by individual channel importance that is measured by the magnitude of Batch-Normalization (BN) scaling factor during training. The validity of such exchanging process is also guaranteed by sharing convolutional filters yet keeping separate BN layers across modalities, which, as an add-on benefit, allows our multimodal architecture to be almost as compact as a unimodal network. Extensive experiments on semantic segmentation via RGB-D data and image translation through multi-domain input verify the effectiveness of our CEN compared to current state-of-the-art methods. Detailed ablation studies have also been carried out, which provably affirm the advantage of each component we propose. Our code is available at https://github.com/yikaiw/CEN.

研究动机与目标

  • 通过在互模态融合与模态内处理之间取得平衡,激发对多模态融合的改进。
  • 提出在模态子网络之间的无参数通道交换机制,受 BN 缩放因子引导。
  • 在保持大多数网络参数不变的同时,仅对 BN 层之外的参数进行共享,以实现模型紧凑并支持模态特定的 BN 分析。
  • 通过大量实验展示 CEN 在 RGB-D 语义分割和多域图像翻译中的有效性。

提出的方法

  • 定义一个多模态网络,其中 M 个模态子网络共享卷积过滤器但具有独立的 BN 层。
  • 引入通道交换,其中一个模态中的低重要性通道(低 BN gamma)被来自其他模态的对应通道的均值所替代(Equation 6)。
  • 对 BN 缩放因子使用 L1 稀疏惩罚以发现并约束被交换的通道(Equation 4)。
  • 在子网络之间共享除 BN 层以外的所有参数,以建模共性模态信息,同时保留模态特定的通道重要性。
  • 通过学习模态权重 alpha_m,并施加 softmax 约束(和为 1),像对齐型融合那样训练一个集成模型。
  • 给出理论论证(定理 1),即 gamma 趋近于 0 的通道很可能是冗余的,且适合进行交换。

实验结果

研究问题

  • RQ1在 BN 缩放因子引导下的通道级交换是否能在不牺牲模态内传播的前提下改善互模态融合?
  • RQ2在不同模态之间共享卷积滤波器,同时保留私有 BN 层,是否能够得到紧凑而高效的多模态模型?
  • RQ3所提通道交换在任务(RGB-D 分割和多域图像翻译)及数据集上是否鲁棒?
  • RQ4对 BN 规模的 L1 正则化是否能有效识别可交换的通道并提升性能?
  • RQ5在公平、参数高效的设置下,CEN 与传统的聚合型和对齐型融合方法相比如何?

主要发现

  • CEN 在 NYUDv2 和 SUN RGB-D 上显著提升 RGB-D 语义分割,与聚合型和对齐型基线相比。
  • 共享卷积滤波器并使用私有 BN 层可带来提升,而共享 BN 因模态特异性差异而降低性能。
  • 带稀疏性的定向通道交换带来大幅 IoU 增益,在与非交换基线相比时实现了 ensemble 的提升。
  • 仅交换部分通道(如一半)可维持模态内传播,并且优于交换所有通道。
  • 消融研究显示每个组成部分(通道交换、基于 BN 的重要性、参数共享)都对性能提升有贡献。
  • 在图像翻译任务(Taskonomy 数据)中,CEN 在多模态组合下的 FID/KID 分数均低于基线。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。