Skip to main content
QUICK REVIEW

[论文解读] A Classification Supervised Auto-Encoder Based on Predefined Evenly-Distributed Class Centroids

Qiuyu Zhu, Ruixin Zhang|arXiv (Cornell University)|Feb 1, 2019
Generative Adversarial Networks and Image Synthesis参考文献 25被引用 23
一句话总结

该论文提出了一种分类监督自编码器(CSAE),通过使用预定义的均匀分布类别中心(PEDCC)来增强特征紧凑性和类间分离度。通过直接使用潜在码进行分类和重建,并结合小波损失和噪声注入,CSAE在MNIST、Fashion-MNIST和EMNIST数据集上实现了更优的图像质量和分类准确率。

ABSTRACT

Classic variational autoencoders are used to learn complex data distributions, that are built on standard function approximators. Especially, VAE has shown promise on a lot of complex task. In this paper, a new autoencoder model - classification supervised autoencoder (CSAE) based on predefined evenly-distributed class centroids (PEDCC) is proposed. Our method uses PEDCC of latent variables to train the network to ensure the maximization of inter-class distance and the minimization of inner-class distance. Instead of learning mean/variance of latent variables distribution and taking reparameterization of VAE, latent variables of CSAE are directly used to classify and as input of decoder. In addition, a new loss function is proposed to combine the loss function of classification. Based on the basic structure of the universal autoencoder, we realized the comprehensive optimal results of encoding, decoding, classification, and good model generalization performance at the same time. Theoretical advantages are reflected in experimental results.

研究动机与目标

  • 提升自编码器表征学习中的特征紧凑性和类间分离度。
  • 在不依赖变分推断的前提下,将分类与重建整合进统一的自编码器框架中。
  • 通过基于小波的损失函数最小化边缘模糊,从而提升图像质量。
  • 通过在训练过程中向潜在特征中注入高斯噪声,提升模型的泛化能力和鲁棒性。
  • 展示预定义的、均匀分布的类别中心在指导端到端训练中的有效性。

提出的方法

  • 提出预定义的均匀分布类别中心(PEDCC),以在潜在空间中最大化类间距离并最小化类内距离。
  • 直接将编码器输出用作潜在表示,同时用于分类和解码,避免重参数化与变分推断。
  • 引入联合损失函数,结合交叉熵损失用于分类和均方误差(MSE)损失用于重建。
  • 对输入图像和重建图像应用小波变换,并最小化小波系数间的L2差异,以保留高频边缘细节。
  • 在训练过程中向潜在特征中注入高斯噪声,以提升鲁棒性和泛化能力。
  • 使用批量归一化和学习率调度,通过Adam优化器进行端到端训练。

实验结果

研究问题

  • RQ1预定义的、均匀分布的类别中心是否能提升自编码器表征学习中的类间分离度与类内紧凑性?
  • RQ2直接使用潜在码进行分类与重建是否在准确率和图像质量上优于变分自编码器?
  • RQ3基于小波的损失是否能提升自编码器生成样本的边缘保真度与主观图像质量?
  • RQ4潜在空间中的噪声注入在多大程度上提升了模型的泛化能力和鲁棒性?
  • RQ5所提出的CSAE在包括MNIST、Fashion-MNIST和EMNIST在内的多样化基准数据集上表现如何?

主要发现

  • CSAE通过利用PEDCC实现结构化特征学习,在MNIST、Fashion-MNIST和EMNIST上达到最先进分类准确率。
  • 基于小波的损失显著提升了边缘锐度与主观图像质量,相比标准MSE损失表现更优。
  • 潜在空间中的噪声注入增强了模型鲁棒性,从而提升了分类准确率与泛化能力。
  • 模型展现出优异的重建性能,尤其在高频区域减少了模糊现象。
  • 通过PEDCC联合优化分类与重建任务,生成了更具判别性与紧凑性的特征表示。
  • 该方法在定量指标与定性图像质量上均优于标准VAE与CVAE基线模型。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。