QUICK REVIEW

[论文解读] Masked Two-channel Decoupling Framework for Incomplete Multi-view Weak Multi-label Learning

Chengliang Liu, Jie Wen|arXiv (Cornell University)|Apr 26, 2024

Text and Document Classification Technologies被引用 10

一句话总结

MTD 提出一个两通道编码器框架，用于在不完整的多视图弱多标签学习中解耦共享特征和视图私有特征，使用跨通道对比损失、对随机片段的掩蔽，以及弱标签引导的图正则化以处理缺失的视图和标签，具有强有力的经验结果。

ABSTRACT

Multi-view learning has become a popular research topic in recent years, but research on the cross-application of classic multi-label classification and multi-view learning is still in its early stages. In this paper, we focus on the complex yet highly realistic task of incomplete multi-view weak multi-label learning and propose a masked two-channel decoupling framework based on deep neural networks to solve this problem. The core innovation of our method lies in decoupling the single-channel view-level representation, which is common in deep multi-view learning methods, into a shared representation and a view-proprietary representation. We also design a cross-channel contrastive loss to enhance the semantic property of the two channels. Additionally, we exploit supervised information to design a label-guided graph regularization loss, helping the extracted embedding features preserve the geometric structure among samples. Inspired by the success of masking mechanisms in image and text analysis, we develop a random fragment masking strategy for vector features to improve the learning ability of encoders. Finally, it is important to emphasize that our model is fully adaptable to arbitrary view and label absences while also performing well on the ideal full data. We have conducted sufficient and convincing experiments to confirm the effectiveness and advancement of our model.

研究动机与目标

解决在不完整的多视图弱多标签学习中，视图和标签都可能缺失的挑战。
提出一种两通道编码器架构，以对每个视图解耦共享表示与视图私有表示。
引入跨通道对比损失以在保持视图特征信息的同时对齐共享表示。
结合向量特征的随机片段掩蔽以增强编码器学习。
利用弱标签引导的图正则化以在嵌入空间中保持样本几何结构。

提出的方法

为每个视图引入两通道编码器：一个共享编码器 E_v^S 和一个视图私有编码器 E_v^O，以产生共享 S^(v) 和私有 O^(v) 特征。
定义跨通道对比损失 L_ccc，使跨视图的共享特征聚集在一起，同时推动共享特征与私有特征分离；并且不依赖跨样本类别信息。
通过计算可用视图中的融合共享 S-bar 与私有 O-bar 来融合视图表示，然后通过非线性交互 Z = theta(O-bar) * S-bar 将它们结合。
添加解码器以重构原始视图特征，并在对缺失条目进行掩蔽的情况下优化重构损失 L_re。
使用基于标签的相似性矩阵计算弱标签引导的图正则化损失 L_gc，以在嵌入 Z 中保持拓扑结构。
应用带权重的多标签分类头来处理未知标签，整合到总损失 L_all = L_mc + alpha L_gc + beta L_ccc + gamma L_re。
在输入特征上引入随机片段掩蔽 M^(v)，以创建掩蔽输入 X'^(v) 并在不改变编码器的情况下进行训练，灵感来自 MAE 的掩蔽策略。
在五个数据集（Corel5k, Pascal07, ESPGame, IAPRTC12, MIRFLICKR）上进行实验验证，50% 缺失视图和 50% 缺失标签，使用六个度量（AP, HL, RL, AUC, OE, Cov）。
在不完整数据情景下，证明 MTD 相对于包括 C2AE、GLOCAL、CDMM、DM2L、LVSL、iMVWL、NAIM3L 和 DICNet 在内的八个基线具有优势。

实验结果

研究问题

RQ1一个两通道解耦框架在不完整的多视图弱多标签数据下，是否能够有效地分离共享信息和视图私有信息？
RQ2跨通道对比学习是否在保持视图私有特征的同时提升跨视图的共享表示的语义质量？
RQ3向量特征的随机片段掩蔽如何影响编码器学习及在不完整数据上的总体表现？
RQ4在标签部分缺失时，基于标签的图正则化是否能在嵌入空间中保持几何结构？
RQ5提出的框架在不完整和完全观测数据上是否均具备适应性和良好表现？

主要发现

MTD 在五个数据集上，在 50% 缺失视图和 50% 缺失标签的条件下，对多项指标超过七个强基线。
深度两通道编码器与跨通道对比损失能够在共享信息与视图私有信息之间取得平衡，提升多标签准确率。
向量特征的随机片段掩蔽提供了显著的性能提升，验证了其在多视图向量数据中的有效性。
弱标签引导的图正则化有助于在嵌入空间保持样本的几何结构，提升泛化性。
MTD 即使在数据完全观测时也保持鲁棒性并取得强结果，显示对任意视图和标签可用性的适应性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。