[论文解读] Geometric Dataset Distances via Optimal Transport
引入了一种模型无关、无需训练的数据集之间的距离,利用最优传输将标签建模为特征的分布;显示其与跨任务与模态的迁移学习难度之间的相关性。
The notion of task similarity is at the core of various machine learning paradigms, such as domain adaptation and meta-learning. Current methods to quantify it are often heuristic, make strong assumptions on the label sets across the tasks, and many are architecture-dependent, relying on task-specific optimal parameters (e.g., require training a model on each dataset). In this work we propose an alternative notion of distance between datasets that (i) is model-agnostic, (ii) does not involve training, (iii) can compare datasets even if their label sets are completely disjoint and (iv) has solid theoretical footing. This distance relies on optimal transport, which provides it with rich geometry awareness, interpretable correspondences and well-understood properties. Our results show that this novel distance provides meaningful comparison of datasets, and correlates well with transfer learning hardness across various experimental settings and datasets.
研究动机与目标
- 为数据集之间的距离提供动机并形式化,使之独立于具体预测器或对每个数据集的训练。
- 提出一个基于 OT 的实用框架,在标签集合彼此不相交的情况下也能比较特征和标签的联合分布。
- 提供可扩展的算法技术,以在大型数据集上计算该距离。
- 在经验上验证所提出的距离与跨领域和模态的迁移学习性能之间的相关性。
提出的方法
- 定义一个联合的特征-标签空间,并通过最优传输将距离提升到该空间的分布。
- 将每个标签建模为对特征的分布,并通过高斯近似(均值和协方差)来表示这些分布,从而实现解析的 Wasserstein 计算。
- 计算一个将特征距离与标签分布距离(高斯之间的 Wasserstein 距离)结合起来的基地度量。
- 使用熵正则化 OT(Sinkhorn)来实现数据集距离的可扩展计算(OT 及其高斯变体)。
- 预先计算标签到标签的距离以加速全局 OT 问题,并采用在线批次统计以提升可扩展性。
实验结果
研究问题
- RQ1是否可以定义一个 principled、无需训练的距离来处理不相交的标签集合并利用数据集几何信息?
- RQ2基于 OT 的数据集距离是否能预测跨多种任务和数据模态的迁移学习性能?
- RQ3在现实大型数据集上,进行 OT 基于数据集距离的计算是否可在可接受的时间内实现?
- RQ4高斯近似的标签分布在距离计算中对真实的标签条件特征分布近似程度有多高?
主要发现
- 提出的基于 OT 的数据集距离(OTDD)在特征-标签分布空间中定义了一个有效的度量。
- 将标签条件下的特征表示为高斯分布可得到可解析的 Wasserstein 距离,并获得一个可扩展的距离(d_OTN),在标签为高斯/椭圆分布时具有精确性。
- 经验结果显示 OTDD 与在 MNIST 变体、USPS、EMNIST、Fashion-MNIST、Tiny-ImageNet、CIFAR-10 以及 NLP 数据集上的迁移学习可迁移性之间存在强相关性。
- OTDD 可以通过预测哪些变换会提升迁移性来指导数据增强的选择。
- 在带有嵌入(BERT)的文本分类中,OTDD 与可迁移性相关,显示其对 NLP 的适用性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。