Skip to main content
QUICK REVIEW

[论文解读] Deep Transfer Network: Unsupervised Domain Adaptation

Xu Zhang, Felix X. Yu|arXiv (Cornell University)|Mar 2, 2015
Domain Adaptation and Few-Shot Learning参考文献 24被引用 126
一句话总结

本文提出深度迁移网络(DTN),一种用于无监督域自适应的深度神经网络框架,通过共享特征提取和判别层联合匹配边缘分布与条件分布。DTN 实现了最先进准确率,计算复杂度为线性,相较于先前方法在 USPS/MNIST 等大规模数据集上准确率最高提升 28.95%。

ABSTRACT

Domain adaptation aims at training a classifier in one dataset and applying it to a related but not identical dataset. One successfully used framework of domain adaptation is to learn a transformation to match both the distribution of the features (marginal distribution), and the distribution of the labels given features (conditional distribution). In this paper, we propose a new domain adaptation framework named Deep Transfer Network (DTN), where the highly flexible deep neural networks are used to implement such a distribution matching process. This is achieved by two types of layers in DTN: the shared feature extraction layers which learn a shared feature subspace in which the marginal distributions of the source and the target samples are drawn close, and the discrimination layers which match conditional distributions by classifier transduction. We also show that DTN has a computation complexity linear to the number of training samples, making it suitable to large-scale problems. By combining the best paradigms in both worlds (deep neural networks in recognition, and matching marginal and conditional distributions in domain adaptation), we demonstrate by extensive experiments that DTN improves significantly over former methods in both execution time and classification accuracy.

研究动机与目标

  • 解决机器学习中的领域偏移问题,即标注源数据与无标注目标数据在特征分布与标签分布上存在差异。
  • 克服先前域自适应方法高计算复杂度(O(n²) 或 O(n³))的局限,提升在大规模数据集上的可扩展性。
  • 开发一种基于深度学习的框架,显式建模并匹配源域与目标域之间的边缘分布与条件分布差异。
  • 在保持线性时间复杂度的前提下实现高分类准确率,从而实现大规模数据集上的高效训练。

提出的方法

  • 在深度神经网络中使用共享特征提取层,学习一个共享子空间,使源样本与目标样本的边缘分布得以对齐。
  • 通过判别层执行分类器迁移,通过匹配跨域给定特征下标签的条件分布实现。
  • 使用联合目标函数优化网络,通过超参数 λ 和 μ 平衡边缘分布与条件分布的匹配。
  • 采用小批量随机优化进行训练,并结合迭代标签精炼策略,训练过程中对目标标签进行 20 次更新以提升分布估计精度。
  • 利用深度网络的层次化特征学习能力,更有效地建模复杂非线性领域偏移,优于浅层方法。
  • 通过设计优化策略使其随训练样本数量线性增长(O(n)),确保可扩展性,支持大规模数据集部署。

实验结果

研究问题

  • RQ1能否有效构建深度神经网络,使其在无监督域自适应中同时匹配边缘分布与条件分布?
  • RQ2所提出的深度迁移网络(DTN)在基准域自适应数据集上的分类准确率是否优于最先进方法?
  • RQ3DTN 是否能在保持高性能的同时,实现对大规模数据集的高效扩展,且计算复杂度与样本数量呈线性关系?
  • RQ4DTN 的性能对关键超参数(如 λ、μ、小批量大小 S 和迭代次数 T)的敏感性如何?

主要发现

  • 在 USPS/MNIST 数据集上,DTN 实现 81.04% 的分类准确率,相较于最佳基线方法(ARRLS)提升 28.95%。
  • 在更大的 CIFAR/VOC 数据集上,DTN 达到 73.60% 的准确率,较最佳基线方法(ARRLS)提升 1.87%。
  • 与 ARRLS 相比,DTN 显著减少执行时间,USPS/MNIST 上仅需 4,548 秒,而 ARRLS 需 7,346 秒。
  • DTN 的训练时间几乎随数据集规模线性增长,证实其 O(n) 计算复杂度,而 ARRLS 的增长速度显著更快。
  • DTN 仅需 3GB GPU 内存,而 ARRLS 需超过 100GB 内存存储核矩阵,使 DTN 更适合大规模部署。
  • 超参数分析表明,最优性能对应 λ = μ = 10,小批量大小 S = 4,000(USPS/MNIST)和 S = 2,000(CIFAR/VOC),标签精炼迭代次数 T = 20。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。