Skip to main content
QUICK REVIEW

[論文レビュー] Are we done with ImageNet?

Lucas Beyer, Olivier J. Hénaff|arXiv (Cornell University)|Jun 12, 2020
Domain Adaptation and Few-Shot Learning参考文献 32被引用数 75
ひとこと要約

本論文は ReaL(再評価ラベル)を導入し ImageNet の検証データを再注釈することで、ImageNet の最近の向上は真の進歩を過大評価しており、ReaL の進歩が元のラベルとは乖離することを示す。さらにラベルノイズを緩和するための二つの学習改善を提案する。

ABSTRACT

Yes, and no. We ask whether recent progress on the ImageNet classification benchmark continues to represent meaningful generalization, or whether the community has started to overfit to the idiosyncrasies of its labeling procedure. We therefore develop a significantly more robust procedure for collecting human annotations of the ImageNet validation set. Using these new labels, we reassess the accuracy of recently proposed ImageNet classifiers, and find their gains to be substantially smaller than those reported on the original labels. Furthermore, we find the original ImageNet labels to no longer be the best predictors of this independently-collected set, indicating that their usefulness in evaluating vision models may be nearing an end. Nevertheless, we find our annotation procedure to have largely remedied the errors in the original labels, reinforcing ImageNet as a powerful benchmark for future research in visual recognition.

研究の動機と目的

  • ImageNet の進歩がラベリングの癖を超えて一般化するかを評価する。
  • ImageNet 検証ラベルを再評価するための頑健な多ラベル人間注釈手順を開発する。
  • 元の ImageNet 精度と ReaL 精度のモデル進歩を比較し、真の進展を評価する。
  • 訓練中のラベルノイズと ImageNet の多オブジェクト内容に対処する技術を提案する。

提案手法

  • 19モデルから提案を組み合わせてImageNet画像の候補ラベルを生成し、高い再現率を保ちつつ精度を改善した小規模なモデル集合を整理する。
  • 画像ごとの候補ラベルごとに5人の専門注釈をクラウドソーシングし、Dawid–Skene モデルを適用して真のラベル妥当性を推定する。
  • ReaL 精度を、モデルのトップ1予測が再評価ラベル集合に含まれる(多ラベルを考慮)こととして定義する。
  • モデル世代間で ImageNet 精度と ReaL 精度の関係を分析し、一般化とラベルバイアスを評価する。
  • 多ラベル予測とクラス共起バイアスを調査し、ImageNet における残留誤差とバイアスを理解する。

実験結果

リサーチクエスチョン

  • RQ1ImageNet の精度は、人間に合わせて再評価されたラベル(ReaL)上の進歩を信頼できる形で追跡しているか?
  • RQ2現代の ImageNet モデルは、元のラベリング手順にあるバイアスをどの程度利用しているか?
  • RQ3代替損失やクリーンなデータでの訓練は、ラベルノイズや長期訓練に伴う過学習に対する頑健性を改善できるか?
  • RQ4多ラベル予測またはトップ-k予測は、ImageNet 画像に対する人間の知覚判断をより正確に反映するか?

主な発見

  • ReaL 精度の進歩が最近のモデルでは ImageNet の進歩に遅れており、人間の嗜好への一般化が弱いことを示している。
  • いくつかの最近のモデルは ReaL ラベルの予測で元の ImageNet ラベルを上回り、元のラベルを評価指標として用いることの有用性が低下していることを示唆する。
  • ReaL ラベルは大量のラベリング誤りを除去し、ReaL が視覚認識の進歩をより忠実に評価する指標であることを示唆する。
  • 二つの簡単な訓練改善—多ラベル予測へシグモイド損失へ切替えと訓練データのラベルをクリーニングすること—は、特に長い訓練スケジュールで一貫した改善をもたらす。
  • 訓練データを清掃しシグmoid損失を用いることで、トップ1および ReaL 精度で顕著な向上が得られ、ラベルノイズが長期訓練での制限因子であることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。