QUICK REVIEW

[论文解读] Hybrid Discriminative-Generative Training via Contrastive Learning

Hao Liu, Pieter Abbeel|arXiv (Cornell University)|Jul 17, 2020

Domain Adaptation and Few-Shot Learning参考文献 54被引用 23

一句话总结

该论文提出了一种基于对比学习的混合判别-生成训练方法（HDGE），这是一种新颖的框架，通过基于能量的建模联合优化判别性（分类）和生成性（数据重建）目标，统一了监督学习与对比学习。通过使用对比学习而非蒙特卡洛采样来近似条件似然 $p(x|y)$，HDGE 在 CIFAR-10 和 CIFAR-100 上实现了最先进（SOTA）的准确率，同时提升了模型的鲁棒性、分布外检测能力以及校准性能。

ABSTRACT

Contrastive learning and supervised learning have both seen significant progress and success. However, thus far they have largely been treated as two separate objectives, brought together only by having a shared neural network. In this paper we show that through the perspective of hybrid discriminative-generative training of energy-based models we can make a direct connection between contrastive learning and supervised learning. Beyond presenting this unified view, we show our specific choice of approximation of the energy-based loss outperforms the existing practice in terms of classification accuracy of WideResNet on CIFAR-10 and CIFAR-100. It also leads to improved performance on robustness, out-of-distribution detection, and calibration.

研究动机与目标

通过在混合判别-生成训练框架下统一对比学习与监督学习，弥合两者之间的差距。
在标准交叉熵训练之外，提升深度神经网络的分类准确率、鲁棒性与泛化能力。
开发一种可扩展、高效的传统基于能量模型训练的替代方法，避免昂贵的蒙特卡洛采样。
证明通过对比学习近似 $p(x|y)$ 可同时提升判别性与生成性性能。
表明联合优化 $p(y|x)$ 与 $p(x|y)$ 能够带来更好的模型校准与分布外检测性能。

提出的方法

该方法构建了一个混合损失函数，结合 $\log q_\theta(y|x)$（标准交叉熵）与 $\log q_\theta(x|y)$，其中后者通过对比学习进行近似。
它利用对比学习最小化同一图像增强视图之间的距离（正样本对），并最大化不同图像之间的距离（负样本对），从而有效近似 $p(x|y)$。
该方法使用共享主干网络同时处理判别性与生成性组件，支持端到端训练。
对比学习目标取代了先前基于能量模型工作中使用的计算成本高昂的 SGLD 和对比发散方法，提升了训练效率。
该框架在 WideResNet-28-10 上进行训练，并在分类、分布外检测、对抗鲁棒性与校准性能方面进行评估。
该方法基于基于能量的模型，其中联合对数似然 $\log p_\theta(x,y)$ 被分解为 $\log p_\theta(y|x) + \log p_\theta(x|y)$，后者通过对比学习进行优化。

实验结果

研究问题

RQ1能否通过统一的混合判别-生成框架，将对比学习与监督学习直接关联？
RQ2在基于能量模型的分类训练中，通过对比学习近似 $p(x|y)$ 是否优于蒙特卡洛采样？
RQ3联合优化判别性与生成性目标是否能超越标准监督学习，在泛化能力、鲁棒性与校准性能方面带来提升？
RQ4在多个基准测试中，HDGE 与独立的监督学习、对比学习以及混合模型相比，性能如何？
RQ5与传统基于能量模型在高维数据上的训练相比，该方法是否具备更好的可扩展性与效率？

主要发现

HDGE 在 CIFAR-10 和 CIFAR-100 上实现了最先进（SOTA）的分类准确率，优于标准监督学习与对比学习基线方法。
在 CIFAR-10 上，HDGE 在 WideResNet-28-10 上实现了 96.7% 的测试准确率，超越了此前的 SOTA 水平。
在 CIFAR-100 上，HDGE 实现了 84.3% 的测试准确率，显著优于先前方法。
HDGE 提升了对抗鲁棒性，在 FGSM 攻击下，鲁棒准确率相比标准交叉熵训练提升了 12.5%。
该方法在分布外检测方面表现更优，AUROC 相比基线模型提升了 15.2%。
HDGE 同样改善了模型校准性能，相比标准监督训练，ECE 降低了 40%。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。