QUICK REVIEW

[论文解读] Learning Transferable Features with Deep Adaptation Networks

Mingsheng Long, Yue Cao|arXiv (Cornell University)|Feb 10, 2015

Domain Adaptation and Few-Shot Learning参考文献 35被引用 2,837

一句话总结

DAN 在深度网络中引入多层、多核的 MK-MMD 基于域自适应，在高层对齐源和目标特征分布，以提升泛化能力并在标准基准上达到最先进结果。

ABSTRACT

Recent studies reveal that a deep neural network can learn transferable features which generalize well to novel tasks for domain adaptation. However, as deep features eventually transition from general to specific along the network, the feature transferability drops significantly in higher layers with increasing domain discrepancy. Hence, it is important to formally reduce the dataset bias and enhance the transferability in task-specific layers. In this paper, we propose a new Deep Adaptation Network (DAN) architecture, which generalizes deep convolutional neural network to the domain adaptation scenario. In DAN, hidden representations of all task-specific layers are embedded in a reproducing kernel Hilbert space where the mean embeddings of different domain distributions can be explicitly matched. The domain discrepancy is further reduced using an optimal multi-kernel selection method for mean embedding matching. DAN can learn transferable features with statistical guarantees, and can scale linearly by unbiased estimate of kernel embedding. Extensive empirical evidence shows that the proposed architecture yields state-of-the-art image classification error rates on standard domain adaptation benchmarks.

研究动机与目标

动机：在无监督和半监督域自适应中，减少数据集偏差、提升深度网络的可迁移性。
提出一种深度自适应架构（DAN），将任务特定层的表示嵌入到再生核希尔伯特空间（RKHS），并在跨域间匹配均值嵌入。
开发多核 MK-MMD 策略，以在分布匹配中最优选择核函数。
通过核均值嵌入的线性时间无偏估计实现可扩展训练。
在标准域自适应基准上展示相对于最先进方法的经验性能提升。

提出的方法

将任务特定层的隐藏表示嵌入到再现核希尔伯特空间（RKHS），以在跨域间匹配均值嵌入。
使用多核 MK-MMD 来测量并最小化源/目标层表示之间的域差异。
应用线性时间无偏 MK-MMD 估计器，以实现基于小批量随机梯度下降的可扩展训练。
通过冻结早期卷积层并用 MK-MMD 正则化调整较高层，微调一个预训练的 AlexNet 模型（l1=6 到 l2=8）。
通过二次规划优化核系数，以最大化检验功效并最小化 II 型错误（与 θ 优化交替进行）。
给出一个理论界限，将目标风险与源风险以及由 MK-MMD 量化的域差异联系起来。

实验结果

研究问题

RQ1如何对多层深度网络进行自适应，以降低源域与目标域之间的域差异？
RQ2相比单核方法，多核 MK-MMD 方法是否能提高深度表示中的分布匹配效果？
RQ3在深度网络中将 MK-MMD 作为正则化项集成，是否能实现可扩展且经验上更优的域自适应？
RQ4相较于先前方法，DAN 在标准域自适应基准上的经验提升如何？

主要发现

方法	A→W	D→W	W→D	A→D	D→A	W→A	平均
DAN	68.5 ± 0.4	96.0 ± 0.3	99.0 ± 0.2	67.0 ± 0.4	54.0 ± 0.4	53.1 ± 0.3	72.9

DAN 在 Office-31 无监督域自适应任务上取得最先进的准确率，例如在不同任务中达到 68.5-68.9%（取决于变体，平均为 72.9-72.9%）。
多层自适应（fc7–fc8）优于单层变体，DAN（多层 MK-MMD）超越单核和单层基线，如 DDC。
多核 MK-MMD（DAN）在跨迁移任务中持续优于单核变体及其他基线。
该方法在 Office-31 以及 Office-10+Caltech-10 基准上表现稳健，优于 TCA、GFK、基于 CNN 的方法以及先前的域自适应方法。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。