Skip to main content
QUICK REVIEW

[论文解读] EMNIST: an extension of MNIST to handwritten letters

Gregory Cohen, Saeed Afshar|arXiv (Cornell University)|Feb 17, 2017
Advanced Neural Network Applications参考文献 10被引用 459
一句话总结

EMNIST 创建了多个 EMNIST 数据集,通过将 MNIST 扩展为 NIST Special Database 19 字符,转换为 28x28 图像,并使用基于 OPIUM 的分类器提供基准结果。

ABSTRACT

The MNIST dataset has become a standard benchmark for learning, classification and computer vision systems. Contributing to its widespread adoption are the understandable and intuitive nature of the task, its relatively small size and storage requirements and the accessibility and ease-of-use of the database itself. The MNIST database was derived from a larger dataset known as the NIST Special Database 19 which contains digits, uppercase and lowercase handwritten letters. This paper introduces a variant of the full NIST dataset, which we have called Extended MNIST (EMNIST), which follows the same conversion paradigm used to create the MNIST dataset. The result is a set of datasets that constitute a more challenging classification tasks involving letters and digits, and that shares the same image structure and parameters as the original MNIST task, allowing for direct compatibility with all existing classifiers and systems. Benchmark results are presented along with a validation of the conversion process through the comparison of the classification results on converted NIST digits and the MNIST digits.

研究动机与目标

  • 激发对一个更广泛、定义清晰的基准的需求,该基准将数字和字母结合起来。
  • 描述一个转换过程,将 NIST 128x128 数据转换为与 MNIST 兼容的 28x28 图像。
  • 介绍六个 EMNIST 数据集(By_Class, By_Merge, Balanced, Letters, Digits, MNIST)及其训练/验证/测试划分。
  • 提供使用基于 OPIUM 的网络的基线分类结果,以验证数据集的有用性和转换质量。

提出的方法

  • 将 NIST Special Database 19 图像转换为与 MNIST 匹配的 28x28 灰度格式,方法包括高斯模糊、ROI 提取、居中、填充和双三次下采样。
  • 按照 MNIST 方法,将训练集/测试集合并为一个随机划分,创建训练、测试和验证集(如适用)。
  • 应用基于 Online Pseudo-Inverse Update Method (OPIUM) 的三层 ELM 网络,在各数据集上建立基线。
  • 使用伪逆解对无隐藏层的网络训练线性分类器作为基线。
  • 将性能与原始 MNIST 进行比较,以验证转换和数据集结构。

实验结果

研究问题

  • RQ1通过将字母与数字结合,EMNIST 数据集是否能提供比 MNIST 更具挑战性和现实感的基准?
  • RQ2转换管道是否保留可分离性并实现与基于 MNIST 的系统的无缝兼容?
  • RQ3基于 OPIUM 的和线性分类器在 EMNIST By_Class, By_Merge, Balanced, Letters, Digits, 以及 MNIST 数据集上的表现如何?
  • RQ4从混淆矩阵和逐类结果中对大写/小写字母混淆及数字-字母分类有什么见解?

主要发现

DatasetLinear ClassifierOPIUM Classifier
Balanced50.93%78.02% ±0.92%
By Merge50.51%72.57% ±1.18%
By Class51.80%69.71% ±1.47%
Letters55.78%85.15% ±0.12%
EMNIST MNIST-85.11%
  • EMNIST Balanced 在 10,000 个隐藏神经元(OPIUM)的条件下达到 78.02% ±0.92%,而线性基线为 50.93%。
  • EMNIST By_Merge 达到 72.57% ±1.18%(OPIUM) vs 50.51% 线性基线。
  • EMNIST By_Class 达到 69.71% ±1.47%(OPIUM) vs 51.80% 线性基线。
  • EMNIST Letters 达到 85.15% ±0.12%(OPIUM) vs 55.78% 线性基线。
  • EMNIST MNIST 在相同的用于数字的网络结构下实现 85.11%(OPIUM);在此基线设置中高于原始 MNIST。
  • 仅包含数字的子集和与 MNIST 兼容的子集在新的转换下显示出较高的准确率,表明比标准 MNIST 提高了可分离性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。