[论文解读] Central Moment Discrepancy (CMD) for Domain-Invariant Representation Learning
引入 Central Moment Discrepancy (CMD),明确匹配领域特定激活的高阶中心矩,形成基于度量的领域正则化,提升无监督领域自适应的性能。
The learning of domain-invariant representations in the context of domain adaptation with neural networks is considered. We propose a new regularization method that minimizes the discrepancy between domain-specific latent feature representations directly in the hidden activation space. Although some standard distribution matching approaches exist that can be interpreted as the matching of weighted sums of moments, e.g. Maximum Mean Discrepancy (MMD), an explicit order-wise matching of higher order moments has not been considered before. We propose to match the higher order central moments of probability distributions by means of order-wise moment differences. Our model does not require computationally expensive distance and kernel matrix computations. We utilize the equivalent representation of probability distributions by moment sequences to define a new distance function, called Central Moment Discrepancy (CMD). We prove that CMD is a metric on the set of probability distributions on a compact interval. We further prove that convergence of probability distributions on compact intervals w.r.t. the new metric implies convergence in distribution of the respective random variables. We test our approach on two different benchmark data sets for object recognition (Office) and sentiment analysis of product reviews (Amazon reviews). CMD achieves a new state-of-the-art performance on most domain adaptation tasks of Office and outperforms networks trained with MMD, Variational Fair Autoencoders and Domain Adversarial Neural Networks on Amazon reviews. In addition, a post-hoc parameter sensitivity analysis shows that the new approach is stable w.r.t. parameter changes in a certain interval. The source code of the experiments is publicly available.
研究动机与目标
- 激励神经网络中无监督领域自适应的领域不变表示学习。
- 通过明确匹配高阶中心矩,解决现有分布匹配方法(如 MMD、KL)的局限性。
- 将 CMD 定义为一个计算高效、无核距离的激活分布之间的距离。
- 提供 CMD 为度量的理论保证并意味着分布收敛。
- 在 Office(视觉)和 Amazon 评测(文本)上对 CMD 进行实证评估,显示出强性能和稳定性。
提出的方法
- 将 CMD 定义为源域和目标域激活分布之间使用至多阶 K 的矩的距离。
- 使用中心矩在紧区间上的分布构建一个度量。
- 将经验性的 CMD_K 作为线性时间正则化项,替代基于核的方法或对抗方法。
- 将 CMD_K 集成到训练目标中作为领域正则项,而无需核矩阵。
- 表明 CMD_K 的梯度可由标准激活函数计算,从而实现基于梯度的优化。
实验结果
研究问题
- RQ1通过显式逐阶匹配高阶中心矩,是否能在域自适应中优于一阶矩或基于核的方法?
- RQ2CMD 是否是紧区间上概率分布的有效度量,并且 CMD 的收敛是否意味着分布收敛?
- RQ3CMD_K 在标准域自适应基准测试(Office 与 Amazon 评论)上是否提供最先进或有竞争力的性能,并具有稳定的超参数行为?
主要发现
- CMD 在大多数 Office 域自适应任务上达到最先进的性能。
- CMD 在 Amazon 评论任务中优于基于 MMD、变分公平自编码器和领域对抗网络。
- CMD 的结果对实用区间内的参数变化具有稳定性(K≥3)。
- CMD 的计算复杂度随样本数量呈线性增长,与二次时间的 MMD 方法形成对比。
- 实证结果包括与若干基线的比较,显示 CMD 在多数任务上通常获得更高的准确率。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。