[論文レビュー] EMNIST: an extension of MNIST to handwritten letters
EMNIST は MNIST を拡張し NIST Special Database 19 の文字を含め、28x28 画像へ変換し、OPIUM ベースの分類器を用いたベンチマーク結果を提供します。
The MNIST dataset has become a standard benchmark for learning, classification and computer vision systems. Contributing to its widespread adoption are the understandable and intuitive nature of the task, its relatively small size and storage requirements and the accessibility and ease-of-use of the database itself. The MNIST database was derived from a larger dataset known as the NIST Special Database 19 which contains digits, uppercase and lowercase handwritten letters. This paper introduces a variant of the full NIST dataset, which we have called Extended MNIST (EMNIST), which follows the same conversion paradigm used to create the MNIST dataset. The result is a set of datasets that constitute a more challenging classification tasks involving letters and digits, and that shares the same image structure and parameters as the original MNIST task, allowing for direct compatibility with all existing classifiers and systems. Benchmark results are presented along with a validation of the conversion process through the comparison of the classification results on converted NIST digits and the MNIST digits.
研究の動機と目的
- digits と letters を組み合わせた、より広く定義されたベンチマークの必要性を動機づける。
- NIST 128x128 データから MNIST 互換の 28x28 画像を作る変換プロセスを説明する。
- train/validation/test の分割を含む six つの EMNIST データセット(By_Class, By_Merge, Balanced, Letters, Digits, MNIST)を導入する。
- OPIUM ベースのネットワークを用いたベースライン分類結果を提供し、データセットの有用性と変換品質を検証する。
提案手法
- Gaussian blurring、ROI 抽出、中央化、パディング、bicubic ダウンサンプリングを用いて NIST Special Database 19 の画像を MNIST に合わせた 28x28 グレースケール形式へ変換する。
- MNIST 手法に従って、トレーニング/テストを結合してランダム分割を作成し、訓練・テスト・検証(適用可能な場合)を作成する。
- OPIUM(Online Pseudo-Inverse Update Method)に基づく三層 ELM ネットワークを適用して、データセット全体でベースラインを確立する。
- 隐藏層のないネットワークに対して疑似逆解法を用いた線形分類器をベースラインとして訓練する。
- 元の MNIST と比較して変換とデータセット構造の妥当性を検証する。
実験結果
リサーチクエスチョン
- RQ1EMNIST データセットは、 digits に加えて letters を含むことで MNIST よりも挑戦的で現実的なベンチマークを提供できるか。
- RQ2変換パイプラインは分離可能性を保持し、MNIST ベースのシステムとのドロップイン互換性を可能にするか。
- RQ3OPIUM ベースおよび線形分類器は EMNIST By_Class、By_Merge、Balanced、Letters、Digits、MNIST の各データセットでどのように性能を示すか。
- RQ4混同行列およびクラス別結果から、大文字/小文字の混同や数字-文字分類についてどのような洞察が得られるか。
主な発見
| Dataset | Linear Classifier | OPIUM Classifier |
|---|---|---|
| Balanced | 50.93% | 78.02% ±0.92% |
| By Merge | 50.51% | 72.57% ±1.18% |
| By Class | 51.80% | 69.71% ±1.47% |
| Letters | 55.78% | 85.15% ±0.12% |
| EMNIST MNIST | - | 85.11% |
- EMNIST Balanced は 78.02% ±0.92% を 10,000 hidden neurons (OPIUM) で達成、線形ベースラインは 50.93%。
- EMNIST By_Merge は 72.57% ±1.18% (OPIUM) を達成、線形ベースラインは 50.51%。
- EMNIST By_Class は 69.71% ±1.47% (OPIUM) を達成、線形ベースラインは 51.80%。
- EMNIST Letters は 85.15% ±0.12% (OPIUM) を達成、線形ベースラインは 55.78%。
- EMNIST MNIST は 85.11% (OPIUM) を、数字に対して用いられた同じネットワーク構造で達成;このベースライン設定で元の MNIST より高い。
- Digits-only および MNIST 互換サブセットは新しい変換で高い精度を示し、標準 MNIST より分離性が改善されたことを示唆している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。