QUICK REVIEW

[论文解读] Maximum-Entropy Fine-Grained Classification

Abhimanyu Dubey, Otkrist Gupta|arXiv (Cornell University)|Sep 16, 2018

Machine Learning and Data Classification被引用 51

一句话总结

本论文提出了一种用于细粒度视觉分类（FGVC）的最大熵训练目标，在若干 FGVC 数据集和网络架构上实现了最先进的结果，同时对数据、超参数和标签噪声具有鲁棒性。

ABSTRACT

Fine-Grained Visual Classification (FGVC) is an important computer vision problem that involves small diversity within the different classes, and often requires expert annotators to collect data. Utilizing this notion of small visual diversity, we revisit Maximum-Entropy learning in the context of fine-grained classification, and provide a training routine that maximizes the entropy of the output probability distribution for training convolutional neural networks on FGVC tasks. We provide a theoretical as well as empirical justification of our approach, and achieve state-of-the-art performance across a variety of classification tasks in FGVC, that can potentially be extended to any fine-tuning task. Our method is robust to different hyperparameter values, amount of training data and amount of training label noise and can hence be a valuable tool in many similar problems.

研究动机与目标

在 FGVC 中提高泛化能力的动机，尤其当类之间视觉上相似且数据稀缺时。
将输出分布熵作为 CNN 微调的正则化项形式化。
推导理论界限，将熵、特征多样性和分类器权重范数联系起来。
在多个数据集和架构上展示最先进的 FGVC 性能。
展示方法对超参数、数据量和标签噪声的鲁棒性。

提出的方法

引入一个微调目标，最小化来自真实标签的 KL 散度同时最大化输出分布的熵：最小化 E_x[ D_KL( ȳ(x) || p(y|x; θ) ) ] - γ E_x[ H[p(y|x; θ)] ].
通过对 CNN 特征上的线性分类器进行 softmax 得到 p(y|x; θ) ： p(y_i|x; w, Φ(x)) = exp(w_i^T Φ(x)) / sum_j exp(w_j^T Φ(x)).
将特征多样性 ν(Φ, p_x) 定义为 pooled 特征的联合协方差 Σ* 的特征值和，并通过一个下界将 ν 与必要的权重范数 ||w||_2 联系起来。
给出理论分析（定理 1-2 和推论 1）将熵、多样性和权重范数联系起来，以在低多样性的 FGVC 设置中正当化熵正则化。
在 FGVC 数据集（CUB-200-2011、Cars、Aircrafts、NABirds、斯坦福狗）和 CNN 主干（GoogLeNet、ResNet-50、VGGNet16、双线性 CNN、DenseNet-161）上进行大量实验。
将最大熵微调与标准微调以及标签平滑正则化（LSR）进行比较，以在 FGVC 任务中显示更大的增益。

实验结果

研究问题

RQ1在 FGVC 微调过程中最大化输出分布熵是否在视觉多样性低时提高泛化？
RQ2输出熵正则化如何与特征多样性相互作用以约束模型复杂度并提高鲁棒性？
RQ3在多种架构下，最大熵微调对超参数选择、数据量和标签噪声是否鲁棒？
RQ4与现有 FGVC 技术和正则化方法（如标签平滑）相比，在标准数据集上方法的表现如何？

主要发现

在五个 FGVC 数据集、跨多个 CNN 架构上，最大熵训练达到最先进或接近最先进的准确性。
该方法在从 ImageNet 微调的基础模型（如 GoogLeNet、ResNet-50）上提供显著提升，通常优于标准微调和 LSR 等替代方法。
经验结果显示预测 logits 分布更平滑，概率值尾部更厚，表明边界更具泛化性。
对 pool5 特征的特征值分析显示最大熵下的特征值谱尾部减少，表明学习到的特征更具一般性。
对超参数（γ）、标签噪声和数据量具有鲁棒性，尽管有时会增加训练交叉熵但提升验证准确率。
与标签平滑正则化相比，最大熵在 FGVC 任务上带来更大提升。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。