[论文解读] DIVA: Domain Invariant Variational Autoencoders
DIVA 在一个变分自编码器中学习三个独立的潜在子空间(域、类别、残差),以实现域泛化并且可以利用未标注数据来提升性能。
We consider the problem of domain generalization, namely, how to learn representations given data from a set of domains that generalize to data from a previously unseen domain. We propose the Domain Invariant Variational Autoencoder (DIVA), a generative model that tackles this problem by learning three independent latent subspaces, one for the domain, one for the class, and one for any residual variations. We highlight that due to the generative nature of our model we can also incorporate unlabeled data from known or previously unseen domains. To the best of our knowledge this has not been done before in a domain generalization setting. This property is highly desirable in fields like medical imaging where labeled data is scarce. We experimentally evaluate our model on the rotated MNIST benchmark and a malaria cell images dataset where we show that (i) the learned subspaces are indeed complementary to each other, (ii) we improve upon recent works on this task and (iii) incorporating unlabelled data can boost the performance even further.
研究动机与目标
- 在训练域与未见测试域不同的情况下,激励域泛化,应用于医学影像学。
- 提出一个生成模型(DIVA),将域、类别和残差因素分解为独立的潜在子空间。
- 通过利用来自已知或未见域的未标注数据,实现半监督学习。
- 在旋转的 MNIST 和疟原虫细胞图像数据集上展示解缠和改进的泛化。
- 展示未标注数据如何提升性能,并讨论域空间中的插值与外推。
提出的方法
- 引入三个独立的潜在变量 z_d(域)、z_y(类别)和 z_x(残差),并给出各自的先验 p(z_d|d)、p(z_y|y) 和 p(z_x)。
- 使用三个独立的编码器 q_phi_d、q_phi_y、q_phi_x 从 x 推断 z_d、z_y、z_x,使用一个共享解码器 p_theta(x|z_d,z_x,z_y)。
- 优化类似 beta-VAE 的下界,包含重建项和每个潜在变量的 KL 惩罚:L_s = E[...] log p_theta(x|z_d,z_x,z_y) - beta[KL(q_phi_d(z_d|x)||p_theta_d(z_d|d)) + KL(q_phi_x(z_x|x)||p(z_x)) + KL(q_phi_y(z_y|x)||p_theta_y(z_y|y))]。
- 包含辅助目标以从 z_d 预测域、从 z_y 预测类别以鼓励解缠:F_DIVA = L_s + alpha_d E[log q_omega_d(d|z_d)] + alpha_y E[log q_omega_y(y|z_y)]。
- 扩展到半监督的 DIVA,通过与标注的 (d,x,y) 和未标注的 (d,x) 数据联合训练,对 y 进行边际化并在 z_y 上加入辅助分类器,同时将监督与无监督项混合的目标函数如式(4)所示。
实验结果
研究问题
- RQ1三分支潜在空间(域、类别、残差)在 VAE 中是否能够解缠域特定信息和类别特定信息,以提升对未见域的泛化?
- RQ2从已知或未见域获取的未标注数据是否提升 DIVA 的域泛化性能?
- RQ3与域对抗及其他域泛化方法在旋转的 MNIST 和疟原虫细胞图像等基准上,DIVA 的表现如何?
主要发现
- DIVA 在旋转的 MNIST 测试域上实现的测试准确率高于 DA、LG、HEX 和 ADV。
- 引入未标注数据(+1、+3、+5、+9)通常提高了性能,但在未标注数据占比高时增益趋于减弱。
- 潜在子空间实现了解缠:z_d 捕捉域信息,z_y 捕捉类别信息,z_x 捕捉残差变化,从而实现条件重构和样本生成。
- 在疟原虫细胞图像上,DIVA 相对于基线在多域上提升了 ROC AUC,并在半监督设置中从未标注数据获益。
- DIVA 可以在新域中利用未标注数据进行学习,更新 y 预测器和域编码器以提升泛化。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。