QUICK REVIEW

[論文レビュー] Food Image Recognition by Using Convolutional Neural Networks (CNNs)

Yuzhen Lu|arXiv (Cornell University)|Dec 3, 2016

Smart Agriculture and AI参考文献 10被引用数 40

ひとこと要約

本論文では、10カテゴリにわたり5,822枚の画像を含む独自のデータセットを用いて、食品画像認識のための5層畳み込みニューラルネットワーク（CNN）を提案している。CNNは元のデータで74％の精度を達成したが、幾何変換を用いたデータ拡張により90％を超える精度に向上し、過学習が著しく軽減され、ボックスト・オブ・フォーチュンズ（BoF）とSVMを組み合わせたベースライン（56％の精度）を上回った。

ABSTRACT

Food image recognition is one of the promising applications of visual object recognition in computer vision. In this study, a small-scale dataset consisting of 5822 images of ten categories and a five-layer CNN was constructed to recognize these images. The bag-of-features (BoF) model coupled with support vector machine (SVM) was first evaluated for image classification, resulting in an overall accuracy of 56%; while the CNN model performed much better with an overall accuracy of 74%. Data augmentation techniques based on geometric transformation were applied to increase the size of training images, which achieved a significantly improved accuracy of more than 90% while preventing the overfitting issue that occurred to the CNN based on raw training data. Further improvements can be expected by collecting more images and optimizing the network architecture and hyper-parameters.

研究の動機と目的

畳み込みニューラルネットワーク（CNN）を用いた、正確な食品画像分類のためのディープラーニングモデルの開発。
食品画像認識において、ボックスト・オブ・フォーチュンズ（BoF）とSVMを組み合わせた伝統的手法と、現代のCNNの性能を比較すること。
データ拡張技術が、CNNの汎化性能を向上させ、過学習を軽減する影響を調査すること。
ディープラーニングを用いた小規模な食品画像認識のベンチマークを確立すること。
データセットの拡大とネットワークアーキテクチャの最適化による、さらなる改善の可能性を同定すること。

提案手法

10種類の食品カテゴリにわたり、合計5,822枚の画像を含む小規模な食品画像データセットを構築した。
エンドツーエンドの特徴抽出と分類を目的に、5層の畳み込みニューラルネットワーク（CNN）を設計した。
回転、スケーリング、反転などの幾何変換を用いたデータ拡張を実装し、訓練データセットを人工的に拡張した。
元のデータと拡張済みデータの両方でCNNを訓練し、汎化性能を評価した。
ボックスト・オブ・フォーチュンズ（BoF）モデルとサポートベクターマシン（SVM）を組み合わせたモデルとの性能を比較した。
標準的な評価指標（全体分類精度など）を用いて、モデル間の性能を比較した。

実験結果

リサーチクエスチョン

RQ15層のCNNは、伝統的なボックスト・オブ・フォーチュンズ（BoF）とSVMを組み合わせた手法と比較して、どのように食品画像分類の性能を発揮するか？
RQ2幾何変換を用いたデータ拡張は、食品画像認識におけるCNNの精度と汎化性能をどの程度向上させるか？
RQ3データ拡張を行わない小規模な元の食品画像データセットで学習されたCNNでは、過学習がどの程度発生するか？
RQ4アーキテクチャやハイパーパrameterの選択が、限られた食品画像データセットにおけるCNNの性能にどのように影響するか？
RQ5現在の設定を越えて、データセットの拡大とモデル最適化により、精度の向上を達成できるか？

主な発見

CNNモデルは、元の訓練データで全体精度74％を達成したが、ボックスト・オブ・フォーチュンズ（BoF）とSVMを組み合わせたベースライン（56％）を著しく上回った。
幾何変換を用いたデータ拡張を適用した後、CNNの精度は90％を超えた。これは、強力な汎化性能と過学習の軽減を示している。
データ拡張による性能向上は、小規模なデータセットを拡張することで、CNNのロバスト性を向上させるのに非常に有効であることを示している。
本研究は、食品画像分類タスクにおいて、ディープラーニングモデル（特にCNN）が伝統的なBoF-SVMパイプラインよりも優れていることを確認している。
結果から、より大きなデータセットや最適化されたネットワークアーキテクチャ、またはハイパーパrameterの最適化により、さらなる精度向上が可能であると示唆されている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。