QUICK REVIEW

[論文レビュー] ChineseFoodNet: A large-scale Image Dataset for Chinese Food Recognition

Xin Chen, Yu Zhu|arXiv (Cornell University)|May 8, 2017

Advanced Chemical Sensor Technologies参考文献 34被引用数 88

ひとこと要約

本論文は ChineseFoodNet を提案する。185,628 枚の画像を 208 の中国料理カテゴリにまたがる大規模データセットで、複数の CNN をベンチマークし、TastyNet という二段階データフュージョンアンサンブルを提案して、個別モデルの top-1 精度を改善します。

ABSTRACT

In this paper, we introduce a new and challenging large-scale food image dataset called "ChineseFoodNet", which aims to automatically recognizing pictured Chinese dishes. Most of the existing food image datasets collected food images either from recipe pictures or selfie. In our dataset, images of each food category of our dataset consists of not only web recipe and menu pictures but photos taken from real dishes, recipe and menu as well. ChineseFoodNet contains over 180,000 food photos of 208 categories, with each category covering a large variations in presentations of same Chinese food. We present our efforts to build this large-scale image dataset, including food category selection, data collection, and data clean and label, in particular how to use machine learning methods to reduce manual labeling work that is an expensive process. We share a detailed benchmark of several state-of-the-art deep convolutional neural networks (CNNs) on ChineseFoodNet. We further propose a novel two-step data fusion approach referred as "TastyNet", which combines prediction results from different CNNs with voting method. Our proposed approach achieves top-1 accuracies of 81.43% on the validation set and 81.55% on the test set, respectively. The latest dataset is public available for research and can be achieved at https://sites.google.com/view/chinesefoodnet.

研究の動機と目的

ウェブおよび実世界の写真を含む中国料理の大規模で多様なデータセットを作成し、料理認識のための頑健な深層学習モデルを実現する。
中国料理データセットを対象に最先端の CNN アーキテクチャの幅広いベンチマークを実施し、性能のベースラインを確立する。
人手作業を削減しつつ高品質なラベルを構築するためのデータ効率的なラベリング/クリーニング戦略を開発・評価する。
単一モデルの結果を超える認識精度を実現するアンサンブルデータフュージョン手法（TastyNet）を提案・検証する。

提案手法

ウェブソースと実世界の写真から中国料理画像を収集・集約し、メタデータとキーワードベースのフィルタリングに guided な半教師付きラベリングを行い、収集・統合する。
サイズとエントロピーの検査を用いてデータをクリーンにし、1,024次元の AlexNet 特徴とユークリッド距離によりデデュプリケーションを行う。
ImageNet 事前学習済み CNN（SqueezeNet、VGG19-BN、ResNet 系、DenseNet 系）を ChineseFoodNet でファインチューニングする。
検証・テストセットで Top-1 および Top-5 精度のベースラインを確立するため、単一 CNN を評価する。
TastyNet を提案する：複数の CNN（ResNet152、DenseNet121/169/201、VGG19-BN）の予測を平均化して2段階のデータフュージョンを行い、より高い精度を達成する。
トレーニング手順（SGD、学習率スケジュール、データ前処理）と公開モデルチェックポイントを含む再現可能な評価プロトコルを提供する。

実験結果

リサーチクエスチョン

RQ1ディープラーニングを用いた効果的な中国料理認識に必要な規模とカテゴリのカバー率は何か。
RQ2多様な CNN アーキテクチャは ChineseFoodNet でどのように性能を示し、実世界の認識タスクにどれだけ近づけることができるか。
RQ3アンサンブルデータフュージョン（TastyNet）は ChineseFoodNet で単一ネットワークより優れた性能を発揮できるか。
RQ4大規模でノイズの多い画像データセットに対して、実用的なデータラベリング戦略で高品質なアノテーションを効率的に作成できるか。

主な発見

手法	検証 Top-1	検証 Top-5	テスト Top-1	テスト Top-5
Squeezenet1_1	58.42%	85.02%	58.24%	85.43%
VGG19-BN	78.96%	95.73%	79.22%	95.99%
ResNet18	73.64%	93.53%	73.67%	93.62%
ResNet34	75.51%	94.29%	75.82%	94.56%
ResNet50	77.31%	95.20%	77.84%	95.44%
ResNet152	78.34%	95.51%	79.00%	95.79%
DenseNet121	78.07%	95.42%	78.25%	95.53%
DenseNet169	78.87%	95.80%	78.72%	95.83%
DenseNet201	79.05%	95.79%	78.78%	95.72%

ChineseFoodNet は 185,628 枚の画像を 208 カテゴリで含み、当時公開された中国料理認識データセットとして最大規模であった。
単一モデルの中で、DenseNet201 が最良の検証 Top-1（79.05%）を、VGG19-BN が最良のテスト Top-1（79.22%）を達成。
より深く/広いネットワークは一般に浅いものよりも優れている（例：ResNet152、DenseNet169/201 は浅いバリアントを改善）。
提案された TastyNet アンサンブル（ResNet152 + DenseNet121/169/201 + VGG19-BN）は、テストセットで Top-1 81.55%、検証で 81.43% を達成し、単一モデルに対して最大約 2.38%（検証）および約 2.33%（テスト）の向上を実現。
多様なアーキテクチャを組み合わせたアンサンブリングは、類似のネットワークを組み合わせるよりも大きな利得を生み、モデルファミリー間で補完的な強みを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。