QUICK REVIEW

[論文レビュー] WebVision Database: Visual Learning and Understanding from Web Data

Wen Li, Limin Wang|arXiv (Cornell University)|Aug 9, 2017

Domain Adaptation and Few-Shot Learning参考文献 32被引用数 313

ひとこと要約

WebVisionを紹介します。ノイズの多いウェブデータからの学習を研究するためのメタ情報を備えた2.4M画像のウェブデータセットで、ILSVRC 2012への一般化は競争力があり、Caltech-256およびPASCAL VOC 2007への転移も強い。

ABSTRACT

In this paper, we present a study on learning visual recognition models from large scale noisy web data. We build a new database called WebVision, which contains more than $2.4$ million web images crawled from the Internet by using queries generated from the 1,000 semantic concepts of the benchmark ILSVRC 2012 dataset. Meta information along with those web images (e.g., title, description, tags, etc.) are also crawled. A validation set and test set containing human annotated images are also provided to facilitate algorithmic development. Based on our new database, we obtain a few interesting observations: 1) the noisy web images are sufficient for training a good deep CNN model for visual recognition; 2) the model learnt from our WebVision database exhibits comparable or even better generalization ability than the one trained from the ILSVRC 2012 dataset when being transferred to new datasets and tasks; 3) a domain adaptation issue (a.k.a., dataset bias) is observed, which means the dataset can be used as the largest benchmark dataset for visual domain adaptation. Our new WebVision database and relevant studies in this work would benefit the advance of learning state-of-the-art visual models with minimum supervision based on web data.

研究の動機と目的

ノイズのあるウェブラベルが人間が注釈したデータと比較して視覚認識に与える影響を評価する。
WebVisionで訓練したモデルの他のデータセットやタスクへの一般化（転移学習）を評価する。
認識タスクにおけるウェブ画像に付随するメタ情報の有用性を探る。
WebVisionとILSVRC 2012のデータセット間のバイアスを調査し、ドメイン適応への影響を検討する。

提案手法

FlickrとGoogle Image Searchからの2.4M画像を用い、ILSVRC 2012の1,000語彙をクエリとしてWebVisionデータセットを構築する。
ウェブ画像のタイトル・説明・タグなどのメタ情報を収集する。
AMTを介して10万件の人間注釈サブセット（検証50K、テスト50K）を作成し、近似重複削除と3票品質投票を行う。
WebVisionとILSVRC 2012でベースラインのAlexNetモデルを学習させ、検証セットでのクロスデータセット性能を比較する。
WebVision-およびILSVRCトレーニング特徴をCaltech-256、PASCAL VOC 2007、およびFaster R-CNNによる物体検出へ転移学習として適用して評価する。
WebVisionとILSVRC 2012の画像をサブサンプリングしてラベルノイズと量の関係を分析し、認識性能への影響を調べる。

実験結果

リサーチクエスチョン

RQ1ノイズのあるウェブラベルデータを用いて、人間が注釈したデータと比較して競争力のある視覚認識モデルを訓練できるか。
RQ2WebVisionで訓練したモデルの他のデータセットやタスクへの一般化（転移学習）はどうなるか。
RQ3ウェブ出典の訓練データにおけるラベルノイズとデータ量の影響はどの程度か。
RQ4ウェブ画像に付随するメタ情報は認識性能を向上させるか、またはマルチモーダル学習を可能にするか。
RQ5WebVisionとILSVRC 2012のデータセット間に測定可能なバイアスは存在するか、WebVisionはドメイン適応のベンチマークとして機能し得るか。

主な発見

モデル	ILSVRC 2012 Val Top-1	ILSVRC 2012 Val Top-5	WebVision Val Top-1	WebVision Val Top-5
ILSVRC 2012	79.77	56.79	74.64	52.58
WebVision	70.36	47.55	77.90	57.03

WebVisionは大規模なデータ量によってノイズの影響を緩和し、ノイズの多いラベルにも耐性のあるCNNモデルを実現できる。
WebVisionで訓練したモデルはCaltech-256およびPASCAL VOC 2007でILSVRC 2012モデルと同等か、それ以上の一般化性能を示し、PASCAL VOC 2007での物体検出も良好である。
WebVisionとILSVRC 2012の間にはドメインバイアスが存在することがクロスデータセット性能の低下として示されるが、WebVisionの特徴は他のタスクへの転移に適している。
ウェブ画像に付随するメタ情報はマルチモーダルおよびドメイン適応研究を支援する可能性を持つ（データセットのバイアス観察から示唆される）。
より多くのウェブ画像を使用することはラベル品質の改善よりもノイズを打ち消す効果が大きく、規模が大きい設定では量の利益がノイズを上回る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。