[论文解读] Learning Discrete Representations via Information Maximizing Self-Augmented Training
IMSAT 通过将信息最大化与自增强训练相结合来学习离散表示,以通过数据增强实现不变性,取得了最先进的聚类和无监督哈希结果。
Learning discrete representations of data is a central machine learning task because of the compactness of the representations and ease of interpretation. The task includes clustering and hash learning as special cases. Deep neural networks are promising to be used because they can model the non-linearity of data and scale to large datasets. However, their model complexity is huge, and therefore, we need to carefully regularize the networks in order to learn useful representations that exhibit intended invariance for applications of interest. To this end, we propose a method called Information Maximizing Self-Augmented Training (IMSAT). In IMSAT, we use data augmentation to impose the invariance on discrete representations. More specifically, we encourage the predicted representations of augmented data points to be close to those of the original data points in an end-to-end fashion. At the same time, we maximize the information-theoretic dependency between data and their predicted discrete representations. Extensive experiments on benchmark datasets show that IMSAT produces state-of-the-art results for both clustering and unsupervised hash learning.
研究动机与目标
- 激发学习紧凑、可解释的离散表示,以用于聚类和哈希学习。
- 通过数据增强对深度网络进行正则化,以引入不变性。
- 在控制模型复杂度的同时,最大化输入与离散表示之间的信息。
- 提供可扩展到大规模数据集的端到端训练。
提出的方法
- 将正则化信息最大化(RIM)扩展到使用深度神经网络的多维离散表示。
- 引入自增强训练(SAT),以惩罚原始数据与增强数据表示之间的差异。
- 将离散输出 Y=(Y1,...,YM) 在给定 x 时建模为条件独立:pθ(y1,...,yM|x)=∏m pθ(ym|x)。
- 在对分类器进行正则化的同时,最大化 X 与 Y 之间的互信息,结合熵项 H(Y) 与 H(Y|X)。
- 对于聚类,强制执行约束 KL[pθ(y)||q(y)]≤δ,以与先验 q(y) 对齐并实现簇大小的目标均匀性。
- 对于哈希学习,使用可处理的对互信息展开来近似互信息,鼓励信息量大且非冗余的位。
- 提供对小批量友好的近似以实现可扩展性。
实验结果
研究问题
- RQ1是否存在一个端到端的深度学习框架,结合信息最大化,在无监督条件下学习用于聚类和哈希的有效离散表示?
- RQ2基于数据增强的正则化(SAT)是否能产生对指定变换不变的表示,从而提升无监督学习的表现?
- RQ3使用类似 VAT 的扰动与其他增广策略相比,对聚类和哈希质量有何影响?
- RQ4IMSAT 在大规模数据集和不同数据域(图像、文本等)上扩展性如何?
主要发现
- 结合 VAT 正则化的 IMSAT 在八个基准数据集上实现了强劲的聚类性能,通常超过 K-means、DEC 和 dAE+K-means 等基线。
- 在 Omniglot 上,将仿射扭曲引入 SAT 能显著提高聚类精度(例如:VAT 为 24.0,仿射为 45.1,VAT+仿射为 70.0)。
- 对于哈希,使用 VAT 的 IMSAT 产生具有竞争力的 16 位结果,较大的网络(如 400-400)在 MNIST 和 CIFAR10 上表现强劲。
- 表格结果显示 IMSAT(VAT)在 MNIST 上达到 98.4% 的聚类准确率,在 Omniglot 上 24.0%,在 STL 上 94.1%,在 CIFAR10 上 45.6%,等(相比若干基线)。
- 该方法受益于端到端深度表示和基于 SAT 的正则化,优于线性变体并在基于 RPT 的变体中显示出提升。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。