[论文解读] Federated Adversarial Domain Adaptation
本论文在无监督联邦域自适应中提出了 Federated Adversarial Domain Adaptation (FADA),通过在联邦环境下使用动态注意力和表示分离,将分布在分布式源域的表示对齐到目标域。
Federated learning improves data privacy and efficiency in machine learning performed over networks of distributed devices, such as mobile phones, IoT and wearable devices, etc. Yet models trained with federated learning can still fail to generalize to new devices due to the problem of domain shift. Domain shift occurs when the labeled data collected by source nodes statistically differs from the target node's unlabeled data. In this work, we present a principled approach to the problem of federated domain adaptation, which aims to align the representations learned among the different nodes with the data distribution of the target node. Our approach extends adversarial adaptation techniques to the constraints of the federated setting. In addition, we devise a dynamic attention mechanism and leverage feature disentanglement to enhance knowledge transfer. Empirically, we perform extensive experiments on several image and text classification tasks and show promising results under unsupervised federated domain adaptation setting.
研究动机与目标
- 激发并形式化无监督联邦域自适应(UFDA),其中数据不能跨域共享。
- 推导 UFDA 的泛化界限,以指导算法设计。
- 提出 FADA,通过对抗对齐和特征分离,在联邦设置中最小化域移位。
提出的方法
- 建立动态注意力,根据对目标域的贡献来加权源域梯度。
- 通过训练域特定的本地特征提取器和全局判别器,在不共享数据的情况下实现联邦对抗对齐。
- 应用特征分离,将表示分解为域不变和域特定成分,并有互信息估计器(MINE)的辅助。
- 使用两步对抗目标函数(域标识符和生成器)在 UFDA 中对齐源域和目标分布。
- 加入重构损失以保持表示完整性,并采用端到端的 SGD 优化循环(算法 1)。
- 利用 gap 统计量衡量源贡献并计算动态梯度掩码以进行聚合。
实验结果
研究问题
- RQ1在数据仍留在本地源且仅共享梯度的情况下,如何切实实现 UFDA?
- RQ2对抗性域对齐和表示分离是否能在联邦设置中降低域移位?
- RQ3动态注意力在聚合时对不同源域的加权有何影响?
- RQ4FADA 在 UFDA 下在图像和文本分类任务中的表现如何?
- RQ5有哪些理论保证可以界定 UFDA 的性能?
主要发现
| Models | mt,sv,sy,up → mm | mm,sv,sy,up → mt | mt,mm,sy,up → sv | mt,mm,sv,up → sy | mt,mm,sv,sy → up | Avg | |
|---|---|---|---|---|---|---|
| Source Only | 63.3 ± 0.7 | 90.5 ± 0.8 | 88.7 ± 0.8 | 63.5 ± 0.9 | 82.4 ± 0.6 | 77.7 |
| DAN | 63.7 ± 0.7 | 96.3 ± 0.5 | 94.2 ± 0.8 | 62.4 ± 0.7 | 85.4 ± 0.7 | 80.4 |
| DANN | 71.3 ± 0.5 | 97.6 ± 0.7 | 92.3 ± 0.8 | 63.4 ± 0.7 | 85.3 ± 0.8 | 82.1 |
| Source Only (second block) | 49.6 ± 0.8 | 75.4 ± 1.3 | 22.7 ± 0.9 | 44.3 ± 0.7 | 75.5 ± 1.4 | 53.5 |
| AdaBN | 59.3 ± 0.8 | 75.3 ± 0.7 | 34.2 ± 0.6 | 59.7 ± 0.7 | 87.1 ± 0.9 | 61.3 |
| AutoDIAL | 60.7 ± 1.6 | 76.8 ± 0.9 | 32.4 ± 0.5 | 58.7 ± 1.2 | 90.3 ± 0.9 | 65.8 |
| f -DANN | 59.5 ± 0.6 | 86.1 ± 1.1 | 44.3 ± 0.6 | 53.4 ± 0.9 | 89.7 ± 0.9 | 66.6 |
| f -DAN | 57.5 ± 0.8 | 86.4 ± 0.7 | 45.3 ± 0.7 | 58.4 ± 0.7 | 90.8 ± 1.1 | 67.7 |
| FADA + attention ( I ) | 44.2 ± 0.7 | 90.5 ± 0.8 | 27.8 ± 0.5 | 55.6 ± 0.8 | 88.3 ± 1.2 | 61.3 |
| FADA + adversarial ( II ) | 58.2 ± 0.8 | 92.5 ± 0.9 | 48.3 ± 0.6 | 62.1 ± 0.5 | 90.6 ± 1.1 | 70.3 |
| FADA + disentangle ( III ) | 62.5 ± 0.7 | 91.4 ± 0.7 | 50.5 ± 0.3 | 71.8 ± 0.5 | 91.7 ± 1.0 | 73.6 |
- 完整组件集合(动态注意力、对抗对齐和分离)下的 FADA 在 Digit-Five 上的平均性能最好(表 1,73.6%)。
- 动态注意力和对抗对齐单独相较基线均有改进,分离变体在多任务中提供显著增益(模型 III)。
- UFDA 比具有共享数据的多源域迁移学习更具挑战性,因数据不能集中而表现较弱。
- 相较于 f-DANN 和 f-DAN,FADA 在学习的特征中呈现更紧凑的类内方差和更大的类间方差(通过图 3 的 t-SNE 可视化)。
- 在 Office-Caltech10、DomainNet 和 Amazon Review 数据集上,FADA 搭配分离在准确率上持续优于强基线(表 2–4)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。