[论文解读] Data Distillation: A Survey
本综述提出一个形式化框架和数据蒸馏的分类法,评述了在图像、图(图结构数据)和推荐系统数据上的方法,并讨论挑战与未来方向。
The popularity of deep learning has led to the curation of a vast number of massive and multifarious datasets. Despite having close-to-human performance on individual tasks, training parameter-hungry models on large datasets poses multi-faceted problems such as (a) high model-training time; (b) slow research iteration; and (c) poor eco-sustainability. As an alternative, data distillation approaches aim to synthesize terse data summaries, which can serve as effective drop-in replacements of the original dataset for scenarios like model training, inference, architecture search, etc. In this survey, we present a formal framework for data distillation, along with providing a detailed taxonomy of existing approaches. Additionally, we cover data distillation approaches for different data modalities, namely images, graphs, and user-item interactions (recommender systems), while also identifying current challenges and future research directions.
研究动机与目标
- 引入数据蒸馏的形式化框架并定义一个 epsilon-近似数据摘要。
- 提供数据蒸馏方法的分类体系,并对跨数据模态的方法进行比较。
- 讨论用于图像、图结构和用户-项目交互的数据蒸馏技术。
- 指出数据蒸馏中的挑战、局限性与未来方向。
提出的方法
- 定义 epsilon-近似数据摘要并形成数据蒸馏目标。
- 将方法分为四类:元模型匹配、梯度匹配、轨迹匹配和分布匹配。
- 描述并比较各类别中的代表性技术(例如 DD、KIP、RFAD、FRePO、DC、DCC、IDC、MTT、TESLA、CAFE、IT-GAN)。
- 讨论计算方面的考虑,如内循环/外循环优化、TBPTT、基于 NTK 的内部求解,以及内存/尺度权衡。
![[HQ Image Link] Figure 1 : The premise of data distillation demonstrated using an image dataset.](https://ar5iv.labs.arxiv.org/html/2301.04272/assets/x1.png)
实验结果
研究问题
- RQ1哪一个形式化框架能最好地捕捉数据蒸馏问题及其目标?
- RQ2不同的数据蒸馏范式在效率、保真度和可迁移性方面的比较如何?
- RQ3元模型、梯度、轨迹和分布匹配方法的实际权衡和可扩展性极限是什么?
- RQ4数据蒸馏技术在多种数据模态(图像、图、推荐数据)上的表现如何?
主要发现
- 在实践中,梯度匹配方法通常优于数据剪枝基线和基于 TBPTT 的方法。
- 分布匹配方法通过避免双层优化,显著提升了可扩展性。
- 轨迹匹配方法可以近似长时程的训练动态,但可能产生高梯度展开成本,较新技术(TESLA)可缓解。
- 不同模态需要定制的编码器或表示,例如 CAFE 借助多层潜在表示以提高保真度。
- 若干方法通过基于核的或线性分类器解耦降低计算成本(如 KIP、RFAD、FRePO)。
- 该框架突显保真度、效率和可迁移性之间的固有权衡,呼应 No Free Lunch 原则。
![[HQ Image Link] Figure 2 : A taxonomy of existing data distillation approaches.](https://ar5iv.labs.arxiv.org/html/2301.04272/assets/x2.png)
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。