QUICK REVIEW

[논문 리뷰] ChineseFoodNet: A large-scale Image Dataset for Chinese Food Recognition

Xin Chen, Yu Zhu|arXiv (Cornell University)|2017. 05. 08.

Advanced Chemical Sensor Technologies참고 문헌 34인용 수 88

한 줄 요약

논문은 ChineseFoodNet을 도입한다. 이는 208개 중국 요리 카테고리의 185,628장 이미지로 구성된 대규모 데이터셋이며, 다수의 CNN을 벤치마크하고, 두 단계 데이터 융합 앙상블인 TastyNet을 제안하여 개별 모델보다 Top-1 정확도를 향상시킨다.

ABSTRACT

In this paper, we introduce a new and challenging large-scale food image dataset called "ChineseFoodNet", which aims to automatically recognizing pictured Chinese dishes. Most of the existing food image datasets collected food images either from recipe pictures or selfie. In our dataset, images of each food category of our dataset consists of not only web recipe and menu pictures but photos taken from real dishes, recipe and menu as well. ChineseFoodNet contains over 180,000 food photos of 208 categories, with each category covering a large variations in presentations of same Chinese food. We present our efforts to build this large-scale image dataset, including food category selection, data collection, and data clean and label, in particular how to use machine learning methods to reduce manual labeling work that is an expensive process. We share a detailed benchmark of several state-of-the-art deep convolutional neural networks (CNNs) on ChineseFoodNet. We further propose a novel two-step data fusion approach referred as "TastyNet", which combines prediction results from different CNNs with voting method. Our proposed approach achieves top-1 accuracies of 81.43% on the validation set and 81.55% on the test set, respectively. The latest dataset is public available for research and can be achieved at https://sites.google.com/view/chinesefoodnet.

연구 동기 및 목표

대신 웹 및 현실 세계 사진을 포함한 대규모의 다양한 중국 요리 데이터셋을 만들어 배경지식이 풍부한 딥러닝 모델로 요리 인식을 가능하게 한다.
ChineseFoodNet에서 최신 CNN 아키텍처를 벤치마크하여 성능 기초값을 설정한다.
매뉴얼 작업의 부담을 줄이면서도 고품질 라벨을 구축하기 위한 데이터 효율적 라벨링/정리 전략을 개발하고 평가한다.
단일 모델 결과를 넘어선 인식 정확도를 개선하기 위한 앙상블 데이터 융합 접근법(TastyNet)을 제안하고 검증한다.

제안 방법

웹 소스 및 현실 세계 사진에서 중국 요리 이미지를 수집 및 집계하고 메타데이터와 키워드 기반 필터링으로 반지도된 라벨링을 수행한다.
크기/엔트로피 검사로 데이터를 정리하고 1,024차원의 AlexNet 특징 및 유클리드 거리 기반으로 중복 제거를 수행한다.
ChineseFoodNet에서 ImageNet 사전학습 CNN(SqueezeNet, VGG19-BN, ResNet 계열, DenseNet 계열)을 미세조정한다.
단일 CNN을 평가하여 검증 세트 및 테스트 세트에서 Top-1 및 Top-5 정확도에 대한 기초값을 설정한다.
TastyNet: 여러 CNN(ResNet152, DenseNet121/169/201, VGG19-BN)의 예측을 평균화하여 우수한 정확도를 달성하는 2단계 데이터 융합 앙상블을 제안한다.
재현 가능한 평가 프로토콜을 제공하며 학습 상세(SGD, 학습률 스케줄, 데이터 전처리) 및 공개 모델 체크포인트를 포함한다.

실험 결과

연구 질문

RQ1딥러닝을 사용한 효과적인 중국 요리 인식을 위해 필요한 규모와 카테고리 커버리지는 어느 정도인가?
RQ2다양한 CNN 아키텍처가 ChineseFoodNet에서 어떻게 작동하며 현실 세계의 인식 작업에 얼마나 근접할 수 있는가?
RQ3앙상블 데이터 융합(TastyNet)이 ChineseFoodNet에서 단일 네트워크를 능가할 수 있는가?
RQ4대규모의 노이즈가 많은 이미지 데이터셋에서 고품질 주석을 효율적으로 생성하는 실용적 데이터 라벨링 전략은 무엇인가?

주요 결과

Method	Validation Top-1	Validation Top-5	Test Top-1	Test Top-5
Squeezenet1_1	58.42%	85.02%	58.24%	85.43%
VGG19-BN	78.96%	95.73%	79.22%	95.99%
ResNet18	73.64%	93.53%	73.67%	93.62%
ResNet34	75.51%	94.29%	75.82%	94.56%
ResNet50	77.31%	95.20%	77.84%	95.44%
ResNet152	78.34%	95.51%	79.00%	95.79%
DenseNet121	78.07%	95.42%	78.25%	95.53%
DenseNet169	78.87%	95.80%	78.72%	95.83%
DenseNet201	79.05%	95.79%	78.78%	95.72%

ChineseFoodNet은 208개 카테고리의 185,628장의 이미지를 포함하고 있어 당시 가장 큰 공개 중국 요리 인식 데이터셋이었다.
단일 모델 중 DenseNet201이 검증 Top-1에서 최고치를 달성했고(79.05%), VGG19-BN이 테스트 Top-1에서 최고치를 보였다(79.22%).
더 깊고 넓은 네트워크가 일반적으로 얕은 네트워크보다 우수한 성능을 보이며(예: ResNet152, DenseNet169/201이 얕은 변형들보다 개선),
제안된 TastyNet 앙상블(ResNet152 + DenseNet121/169/201 + VGG19-BN)은 테스트 세트에서 Top-1 81.55%, 검증에서 81.43%를 달성해 단일 모델에 비해 최대 약 2.38%(검증) 및 약 2.33%(테스트) 개선을 보인다.
다양한 아키텍처를 앙상블하는 것이 비슷한 네트워크를 앙상블하는 것보다 더 큰 이점을 제공하며, 모델 계열 간의 보완적 강점을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.