QUICK REVIEW

[論文レビュー] Assessing four Neural Networks on Handwritten Digit Recognition Dataset (MNIST)

Feiyang Chen, Nan Chen|arXiv (Cornell University)|Nov 16, 2018

Handwritten Text Recognition Techniques参考文献 8被引用数 38

ひとこと要約

この論文は、MNIST手書き数字データセットの複数のデータ分割（25%、50%、75%、100%）において、CNN、ResNet、DenseNet、およびCapsNet強化CNNの4つのニューラルネットワークアーキテクチャを評価する。提案されたCapsNetベースのモデルは、全データセットで99.75%の最高精度を達成し、一般化性能に優れ、25%の訓練データでもすべてのベースラインを上回る。これは、画像認識タスクにおけるデータ効率性と頑健性の高さを示している。

ABSTRACT

Although the image recognition has been a research topic for many years, many researchers still have a keen interest in it[1]. In some papers[2][3][4], however, there is a tendency to compare models only on one or two datasets, either because of time restraints or because the model is tailored to a specific task. Accordingly, it is hard to understand how well a certain model generalizes across image recognition field[6]. In this paper, we compare four neural networks on MNIST dataset[5] with different division. Among them, three are Convolutional Neural Networks (CNN)[7], Deep Residual Network (ResNet)[2] and Dense Convolutional Network (DenseNet)[3] respectively, and the other is our improvement on CNN baseline through introducing Capsule Network (CapsNet)[1] to image recognition area. We show that the previous models despite do a quite good job in this area, our retrofitting can be applied to get a better performance. The result obtained by CapsNet is an accuracy rate of 99.75\%, and it is the best result published so far. Another inspiring result is that CapsNet only needs a small amount of data to get excellent performance. Finally, we will apply CapsNet's ability to generalize in other image recognition field in the future.

研究の動機と目的

MNISTデータセットの複数のデータ分割における、4つのニューラルネットワークモデル—CNN、ResNet、DenseNet、およびCapsNet強化CNNの一般化性能を評価すること。
空間的関係を重視し、ダイナミックルーティングを採用する新規アーキテクチャであるCapsNetが、画像認識タスクにおいて標準CNNや他のディープラーニングモデルを上回る可能性があるかどうかを調査すること。
訓練データを削減したセット（25%、50%、75%、100%）で性能をテストすることにより、CapsNetのデータ効率性を評価すること。
CapsNetのアーキテクチャ的革新が、特に低データ環境下で、画像認識におけるより良い一般化能力と頑健性をもたらすかどうかを特定すること。

提案手法

著者は、標準CNN、ResNet、DenseNet、および特徴表現を向上させるためにCapsNetを統合した変更版CNNの4つのモデルを訓練および評価した。
MNISTデータセットを25%、50%、75%、100%の訓練サブセットに分割し、データ量の変化に伴うモデル性能を評価した。
CapsNetは、キャプセル間でダイナミックルーティングを採用しており、ルーティング重みは予測値と実際の出力の一致に基づいて更新され、活性化関数としてスイーピング関数を用いてベクトルの大きさを維持する。
CapsNetアーキテクチャには、畳み込み層（256フィルタ、9×9、ストライド1）、PrimaryCaps層（32個のキャプセル、各キャプセルが8×9×9×256のカーネル、ストライド2）、およびDigitCaps層（10個のキャプセル、各数字クラスごとに1つ）が含まれる。
スイーピング活性化関数は、キャプセル出力に適用され、以下の式で表される：$ v_j = \frac{||s_j||^2}{1+||s_j||^2} \cdot \frac{s_j}{||s_j||} $。この関数により、活動ベクトルが注目度と空間的関係を表現する。
性能は、各データ分割におけるテストセットの分類精度を指標として測定し、モデル間で比較した。

実験結果

リサーチクエスチョン

RQ1CapsNetは、MNISTデータセットの全データ分割において、標準CNN、ResNet、DenseNetを上回る高い精度を達成するか？
RQ2CapsNetは、MNIST訓練データの25%でのみ学習させた場合、ベースラインモデルと比べてどのように性能を発揮するか？
RQ3CapsNetのアーキテクチャ的設計が、画像認識タスクにおけるより良い一般化能力と頑健性をどの程度実現できるか？
RQ4従来のCNNと比較して、CapsNetは顕著に少ない訓練データでも高い性能を維持できるか？

主な発見

CapsNetは、全MNISTデータセットで99.75%の最高テスト精度を達成し、CNN（98.32%）、ResNet（99.16%）、DenseNet（99.37%）を上回った。
25%データ分割では、CapsNetは87.68%の精度を達成し、全データのCNNベースライン（80.73%）を上回り、高いデータ効率性を示した。
CapsNetは、全データ分割において一貫して他のすべてのモデルを上回り、優れた一般化能力を示した。
訓練データの50%でのみ学習させた場合、CapsNetは97.12%の精度に達し、標準CNNの全データ性能に近づいた。
結果から、CapsNetのダイナミックルーティングとベクトルベースの表現が、情報損失を低減し、入力の変動に対して頑健性を向上させると考えられる。
小規模データセットにおけるCapsNetの性能は、画像認識分野における低データ機械学習応用の可能性を示唆している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。