QUICK REVIEW

[論文レビュー] CleanNet: Transfer Learning for Scalable Image Classifier Training with Label Noise

Kuang-Huei Lee, Xiaodong He|arXiv (Cornell University)|Nov 20, 2017

Machine Learning and Data Classification参考文献 34被引用数 37

ひとこと要約

CleanNetは、手動で検証されたクラスの少数からクラスプロトタイプを学習することで、ラベルノイズ検出および画像分類のための人間の監視を削減する転移学習フレームワークを導入する。クラスリファレンスとクエリ画像の両方を埋め込むニューラルネットワークを同時に訓練することで、ノイズ検出の知識をクラス間で転送し、画像分類タスクではラベル付き画像の3.2%のみで、完全な人間による検証性能の47%を達成する。

ABSTRACT

In this paper, we study the problem of learning image classification models with label noise. Existing approaches depending on human supervision are generally not scalable as manually identifying correct or incorrect labels is time-consuming, whereas approaches not relying on human supervision are scalable but less effective. To reduce the amount of human supervision for label noise cleaning, we introduce CleanNet, a joint neural embedding network, which only requires a fraction of the classes being manually verified to provide the knowledge of label noise that can be transferred to other classes. We further integrate CleanNet and conventional convolutional neural network classifier into one framework for image classification learning. We demonstrate the effectiveness of the proposed algorithm on both of the label noise detection task and the image classification on noisy data task on several large-scale datasets. Experimental results show that CleanNet can reduce label noise detection error rate on held-out classes where no human supervision available by 41.5% compared to current weakly supervised methods. It also achieves 47% of the performance gain of verifying all images with only 3.2% images verified on an image classification task. Source code and dataset will be available at kuanghuei.github.io/CleanNetProject.

研究の動機と目的

広範な人的ラベル付けに依存しないラベルノイズ検出におけるスケーラビリティと精度のトレードオフを緩和すること。
手動で検証された少数のクラスから、未検証のクラスへと知識を転送する手法を開発すること。
ラベルノイズ検出と画像分類器の学習を統合的かつエンドツーエンド微分可能なフレームワークで統合すること。
大規模画像分類において、人的に検証されたラベルの少数で、完全監視性能に近い性能を達成できることを示すこと。

提案手法

CleanNetは、特定のクラスにラベル付けされたリファレンス画像の集合からクラス埋め込みベクトルを生成するアテンションベースのリファレンスセットエンコーダを使用する。
個々の画像のクエリ埋め込みを学習し、画像が正しくラベル付けされている場合に、クエリ埋め込みとクラス埋め込みの類似性マッチング制約を課す。
モデルは、検証済みクラスから未検証クラスへとノイズ検出の知識を一般化するための転移学習を活用し、新しいクラスに対して人的監視なしで推論を可能にする。
画像とラベルの関連スコアに基づくソフトウェート方式を用いて、分類器の学習中に訓練サンプルを再重み付けする。
CleanNetと畳み込みニューラルネットワーク分類器を同時に訓練し、更新された分類器からの特徴を用いてCleanNetを繰り返し精練する。
クラス埋め込みおよびクエリ埋め込みの両コンponentをバックプロパゲーション可能にする微分可能なアーキテクチャを採用する。

実験結果

リサーチクエスチョン

RQ1少数の手動で検証されたラベルを用いて、未検証のクラスにおけるラベルノイズ検出に一般化可能なモデルを学習できるか？
RQ2ラベルノイズ検出および画像分類における人的監視の必要性を軽減するために、転移学習はどの程度効果的か？
RQ3CleanNetは、ラベルの少数でのみ検証された場合、完全な人間による検証性能にどの程度近づけるか？
RQ4標準的なCNNとCleanNetを統合することで、大規模データセットにおけるラベルノイズへのロバストネスが向上するか？

主な発見

CleanNetは、未検証クラスにおけるラベルノイズ検出誤差率を、弱い監視ベースラインと比較して41.5%低減したが、そのクラスに対しては人的監視が一切行われなかった。
Clothing1Mデータセットでは、わずか3.2%の画像を検証しただけで、100万枚のノイズ混在画像でトップ1正答率74.69%を達成し、完全検証性能の47%に相当する。
WebVisionでは、3.2%の画像（308クラス）を検証するだけで、すべての画像を検証した場合の性能向上の47%を達成し、強力な転送性を示した。
118のランダムに選択されたクラス（全画像の1.2%）を検証した場合、WebVisionでは完全検証性能の29%の性能向上を達成した。
ラベルの混乱情報を利用しないにもかかわらず、[20]（トップ1正答率80.38%）と同等の結果をClothing1Mで達成した。
CleanNetと画像分類器の統合的学習スキームにより、Food-101N、Clothing1M、WebVisionの全データセットで一貫した性能向上が得られた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。