[论文解读] ChineseFoodNet: A large-scale Image Dataset for Chinese Food Recognition
本文介绍了 ChineseFoodNet,这是一个包含 185,628 张图片、跨 208 个中国菜类别的大规模数据集,基准多种卷积神经网络,并提出 TastyNet,一种两步数据融合集成方法,可在 top-1 准确度上超越单模型。
In this paper, we introduce a new and challenging large-scale food image dataset called "ChineseFoodNet", which aims to automatically recognizing pictured Chinese dishes. Most of the existing food image datasets collected food images either from recipe pictures or selfie. In our dataset, images of each food category of our dataset consists of not only web recipe and menu pictures but photos taken from real dishes, recipe and menu as well. ChineseFoodNet contains over 180,000 food photos of 208 categories, with each category covering a large variations in presentations of same Chinese food. We present our efforts to build this large-scale image dataset, including food category selection, data collection, and data clean and label, in particular how to use machine learning methods to reduce manual labeling work that is an expensive process. We share a detailed benchmark of several state-of-the-art deep convolutional neural networks (CNNs) on ChineseFoodNet. We further propose a novel two-step data fusion approach referred as "TastyNet", which combines prediction results from different CNNs with voting method. Our proposed approach achieves top-1 accuracies of 81.43% on the validation set and 81.55% on the test set, respectively. The latest dataset is public available for research and can be achieved at https://sites.google.com/view/chinesefoodnet.
研究动机与目标
- 创建一个包含网页和真实世界照片的中国菜肴的大规模、多样化数据集,以推动菜肴识别的深度学习模型的鲁棒性。
- 对 ChineseFoodNet 上的一系列最先进 CNN 架构进行基准测试,确立性能基线。
- 开发并评估数据高效的标注/清理策略,以在降低人工工作量的同时构建高质量标签。
- 提出并验证一个集成数据融合方法(TastyNet),以提升识别准确性,超越单模型结果。
提出的方法
- 从网络源和真实世界照片收集并聚合中国菜肴图像,随后在元数据引导及基于关键字的过滤下进行半监督标注。
- 使用尺寸/熵值检查清理数据,并通过 1,024 维 AlexNet 特征和欧氏距离进行去重。
- 在 ChineseFoodNet 上微调 ImageNet 预训练的 CNN(SqueezeNet、VGG19-BN、ResNet 变体、DenseNet 变体)。
- 评估单一 CNN,以在验证集和测试集上建立 Top-1 和 Top-5 的基线。
- 提出 TastyNet:一个两步数据融合集成,平均来自多个 CNN(ResNet152、DenseNet121/169/201、VGG19-BN)的预测,以实现更高的准确性。
- 提供可重复的评估协议,包括训练细节(SGD、学习率计划、数据预处理)和公开模型检查点。
实验结果
研究问题
- RQ1使用深度学习进行有效的中国菜肴识别需要什么样的规模和类别覆盖?
- RQ2不同的 CNN 架构在 ChineseFoodNet 上的表现如何,它们能在多大程度上接近真实世界的识别任务?
- RQ3集成数据融合(TastyNet)是否能在 ChineseFoodNet 上超越单网络?
- RQ4哪些实际的数据标注策略可以高效地为一个大型、嘈杂的图像数据集生成高质量的注释?
主要发现
| 方法 | 验证 Top-1 | 验证 Top-5 | 测试 Top-1 | 测试 Top-5 |
|---|---|---|---|---|
| Squeezenet1_1 | 58.42% | 85.02% | 58.24% | 85.43% |
| VGG19-BN | 78.96% | 95.73% | 79.22% | 95.99% |
| ResNet18 | 73.64% | 93.53% | 73.67% | 93.62% |
| ResNet34 | 75.51% | 94.29% | 75.82% | 94.56% |
| ResNet50 | 77.31% | 95.20% | 77.84% | 95.44% |
| ResNet152 | 78.34% | 95.51% | 79.00% | 95.79% |
| DenseNet121 | 78.07% | 95.42% | 78.25% | 95.53% |
| DenseNet169 | 78.87% | 95.80% | 78.72% | 95.83% |
| DenseNet201 | 79.05% | 95.79% | 78.78% | 95.72% |
- ChineseFoodNet 含 185,628 张图像,208 个类别,成为当时最大全公有的中国菜肴识别数据集。
- 在单一模型中,DenseNet201 在验证集上获得最佳 Top-1(79.05%),VGG19-BN 在测试集上获得最佳 Top-1(79.22%)。
- 更深/更宽的网络通常优于较浅的网络(例如 ResNet152、DenseNet169/201 相对于较浅的变体有所提升)。
- 提出的 TastyNet 集成(ResNet152 + DenseNet121/169/201 + VGG19-BN)在测试集上达到 Top-1 81.55%,在验证集上达到 81.43%,相比单模型对手在验证端最高提升约 2.38%,在测试端约 2.33%。
- 对不同架构进行集成比对同类网络集成带来更大收益,表明各模型族群具备互补优势。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。