QUICK REVIEW

[論文レビュー] The Freiburg Groceries Dataset

Philipp Jund, Nichola Abdo|arXiv (Cornell University)|Nov 17, 2016

Advanced Image and Video Retrieval Techniques参考文献 27被引用数 50

ひとこと要約

Freiburg Groceries データセットは、家庭および小売環境から収集された25種類の食料品クラスの実世界の画像5,000枚を含む、ロボットオブジェクト認識のための現実的でない訓練データの欠如に応える実世界ベンチマークを提供する。微調整された CaffeNet モデルを用いて、5分割交差検証で平均正解率78.9％を達成し、サービスロボティクスおよびビジョンシステム分野における今後の研究の強力なベースラインを提供する。

ABSTRACT

With the increasing performance of machine learning techniques in the last few years, the computer vision and robotics communities have created a large number of datasets for benchmarking object recognition tasks. These datasets cover a large spectrum of natural images and object categories, making them not only useful as a testbed for comparing machine learning approaches, but also a great resource for bootstrapping different domain-specific perception and robotic systems. One such domain is domestic environments, where an autonomous robot has to recognize a large variety of everyday objects such as groceries. This is a challenging task due to the large variety of objects and products, and where there is great need for real-world training data that goes beyond product images available online. In this paper, we address this issue and present a dataset consisting of 5,000 images covering 25 different classes of groceries, with at least 97 images per class. We collected all images from real-world settings at different stores and apartments. In contrast to existing groceries datasets, our dataset includes a large variety of perspectives, lighting conditions, and degrees of clutter. Overall, our images contain thousands of different object instances. It is our hope that machine learning and robotics researchers find this dataset of use for training, testing, and bootstrapping their approaches. As a baseline classifier to facilitate comparison, we re-trained the CaffeNet architecture (an adaptation of the well-known AlexNet) on our dataset and achieved a mean accuracy of 78.9%. We release this trained model along with the code and data splits we used in our experiments.

研究の動機と目的

サービスロボティクスにおける食料品オブジェクト認識のための現実的でない実世界の訓練データの欠如に対処すること。
照明、視点、ごみの程度の多様な状況を反映する、バランスの取れたベンチマークデータセットを提供することにより、実際の家庭環境をよりよく再現すること。
日常的なオブジェクト認識のための機械学習およびロボットビジョンシステムの開発と比較を支援すること。
再現可能な評価とベースライン比較を可能にするために、トレーニング済みの CaffeNet モデルおよびデータ分割を公開すること。

提案手法

データセットはドイツの実際の店舗およびアパートから収集され、照明、視点、ごみの程度の変動を伴う画像が含まれる。
画像は25のクラスに分類され、各クラスに少なくとも97枚の画像が含まれ、合計で約5,000枚の画像が得られた。
5分割交差検証戦略が用いられ、各クラスの画像が分割に均等に配分され、バランスの取れた評価が保証された。
CaffeNet アーキテクチャ（AlexNet をベースにしたもの）が、事前学習済みモデルからの初期重みを用いて微調整され、全結合層のみが再訓練された。
訓練中にクラスバランスを保つために、代表が不足しているクラスの画像を複製することでデータバランスが取られた。
定性的なテストとして、モデルを単一クラス画像（データセット D1）で学習させたのち、複雑なシーン（データセット D2）から手動で抽出したパッチを分類した。

実験結果

リサーチクエスチョン

RQ1照明、視点、ごみの程度に高いばらつきがある実世界の食料品認識データセットにおいて、標準的なディープラーニングモデルの有効性はいかほどか？
RQ2果物の画像が印刷されたシリアルボックスなどの誤解を招く視覚的デザインは、分類性能にどの程度悪影響を及えるか？
RQ3単一オブジェクトの画像で学習したモデルは、複数の重複するクラスが存在する複雑なごみだらけのシーンにおけるオブジェクト認識に一般化可能か？
RQ4特に外観が似通ったクラス（例：白いパッケージ）において、性能はどのように変動するか？

主な発見

CaffeNet モデルは5つの交差検証スプリット全体で平均正解率78.9％を達成し、標準偏差は0.5％であった。
水、ジャム、ジュースなどのクラスで最も高い性能を示し、正解率は88.1％から93.2％の間であった。
強みを示したのは強化粉で、正解率はたったの59.9％にとどまり、白いパッケージが他の類似品と区別がつかないことが原因と考えられる。
誤分類の主な原因は視覚的なあいまいさであり、例えば果物のイラストが描かれたシリアルボックスがジュースと誤認されることが頻発した。
パッチサイズに敏感であるが、複数オブジェクトが存在するシーンにおいてもパッチ分類が成功したことで、モデルの一般化可能性が示された。
混同行列から、視覚的に類似したクラス間で体系的な誤りが生じていることが明らかになり、細分化された認識の課題が浮き彫りになった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。