Skip to main content
QUICK REVIEW

[논문 리뷰] The Freiburg Groceries Dataset

Philipp Jund, Nichola Abdo|arXiv (Cornell University)|2016. 11. 17.
Advanced Image and Video Retrieval Techniques참고 문헌 27인용 수 50
한 줄 요약

프라이부르크 식료품 데이터셋은 서비스 로봇의 물체 인식을 위한 현실적인 학습 데이터 부족 문제를 해결하기 위해, 다양한 가정 및 소매 환경에서 촬영한 5,000장의 이미지로 구성된 실제 세계 기반 벤치마크를 소개한다. 미세조정된 CaffeNet 모델을 사용하여 오차가 0.5%인 다섯 번의 교차검증에서 평균 정확도 78.9%를 달성하였으며, 이는 향후 서비스 로봇 및 시각 시스템 분야의 연구에 강력한 기준을 제공한다.

ABSTRACT

With the increasing performance of machine learning techniques in the last few years, the computer vision and robotics communities have created a large number of datasets for benchmarking object recognition tasks. These datasets cover a large spectrum of natural images and object categories, making them not only useful as a testbed for comparing machine learning approaches, but also a great resource for bootstrapping different domain-specific perception and robotic systems. One such domain is domestic environments, where an autonomous robot has to recognize a large variety of everyday objects such as groceries. This is a challenging task due to the large variety of objects and products, and where there is great need for real-world training data that goes beyond product images available online. In this paper, we address this issue and present a dataset consisting of 5,000 images covering 25 different classes of groceries, with at least 97 images per class. We collected all images from real-world settings at different stores and apartments. In contrast to existing groceries datasets, our dataset includes a large variety of perspectives, lighting conditions, and degrees of clutter. Overall, our images contain thousands of different object instances. It is our hope that machine learning and robotics researchers find this dataset of use for training, testing, and bootstrapping their approaches. As a baseline classifier to facilitate comparison, we re-trained the CaffeNet architecture (an adaptation of the well-known AlexNet) on our dataset and achieved a mean accuracy of 78.9%. We release this trained model along with the code and data splits we used in our experiments.

연구 동기 및 목표

  • 서비스 로봇에서 식료품 물체 인식을 위한 현실적이고 실제 세계 기반의 학습 데이터 부족 문제를 해결하기 위해.
  • 다양한 조명, 시야각, 혼잡도 수준을 반영하여 실제 가정 환경을 더 잘 반영하는 다섯 번의 교차검증을 위한 기준 데이터셋을 제공하기 위해.
  • 일상적인 물체 인식을 위한 기계 학습 및 로봇 인식 시스템의 개발과 비교를 지원하기 위해.
  • 재현 가능한 평가 및 기준 비교를 가능하게 하기 위해 훈련된 CaffeNet 모델과 데이터 분할을 공개하기 위해.

제안 방법

  • 데이터셋은 독일의 실제 마트와 아파트에서 촬영되었으며, 다양한 조명, 시야각, 혼잡도 수준을 반영하였다.
  • 이미지는 최소 97장의 이미지가 포함된 25개의 클래스로 구성되었으며, 총 약 5,000장의 이미지로 구성되었다.
  • 균형 잡힌 평가를 확보하기 위해, 각 클래스의 이미지가 다섯 개의 분할에 균일하게 분포되도록 다섯 번의 교차검증 전략을 사용하였다.
  • 초기 가중치는 사전 훈련된 모델에서 가져오고, 완전 연결 계층만 재학습시킨 CaffeNet 아키텍처(아카이브넷 기반)를 데이터셋에 대해 미세조정하였다.
  • 클래스 균형을 유지하기 위해, 표현이 부족한 클래스의 이미지를 복제하여 훈련 중 데이터 균형 조정을 적용하였다.
  • 수동으로 추출한 혼잡한 장면의 패치를 사용하여, 단일 클래스 이미지로 훈련된 모델(D1)이 다중 클래스 장면(D2)에서의 분류 성능을 평가하는 정성적 테스트를 수행하였다.

실험 결과

연구 질문

  • RQ1조명, 시야각, 혼잡도의 변동성이 높은 실제 세계 기반 식료품 인식 데이터셋에서 표준 딥러닝 모델의 효과성은 어떠한가?
  • RQ2예를 들어 시리얼 박스에 과일 이미지가 그려져 있을 경우와 같이 오해의 소지가 있는 시각적 설계는 분류 성능에 얼마나 부정적인 영향을 미치는가?
  • RQ3단일 물체 이미지로 훈련된 모델이 다중 겹침 클래스를 포함한 복잡한 혼잡한 장면에서 물체를 일반화하여 인식할 수 있는가?
  • RQ4특히 외관이 유사한 물체들(예: 흰색 포장지)과 같은 특정 식료품 클래스에서는 성능이 어떻게 변하는가?

주요 결과

  • CaffeNet 모델은 다섯 번의 교차검증 분할에서 평균 정확도 78.9%를 달성하였으며, 표준편차는 0.5%였다.
  • 물, 잼, 주스와 같은 클래스에서 가장 높은 성능을 보였으며, 정확도는 각각 88.1%에서 93.2% 사이였다.
  • 밀가루 클래스에서 가장 낮은 성능을 보였으며, 정확도는 오직 59.9%에 머물렀다. 이는 흰색 포장지가 유사한 다른 물체들과 유사하여 발생한 것으로 보인다.
  • 오분류의 주요 원인은 시각적 모호성으로, 과일 그림이 그려진 시리얼 박스가 주스로 오분류되는 경우가 자주 발생했다.
  • 혼잡한 장면으로의 일반화 잠재력은 패치 크기에 민감하게 반응하는 것으로 나타났지만, 다중 물체 장면에서의 패치 분류 성공 사례를 통해 잠재력이 확인되었다.
  • 혼동 행렬은 특히 외관이 유사한 클래스들 간의 체계적인 오류를 드러내었으며, 미세한 인식의 과제를 강조하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.