QUICK REVIEW

[論文レビュー] Less is More: An Exploration of Data Redundancy with Active Dataset Subsampling.

Kashyap Chitta, José M. Alvarez|arXiv (Cornell University)|May 29, 2019

Machine Learning and Algorithms参考文献 15被引用数 12

ひとこと要約

本稿では、10k～500k件のサンプルを含む大規模データセットから、最も情報量の多い訓練データを特定・サブサンプリングする、数百のモデルからなるアンサンブルを用いたスケーラブルなアクティブラーニング手法を提案する。中間の訓練チェックポイントを再利用することで、モデルの精度を向上させるとともに訓練時間を短縮する高品質なサブセットを効率的に選択する。CIFAR-10、CIFAR-100、ImageNet、およびプロダクションスケールの物体検出ベンチマークにおいて顕著な性能向上を示した。

ABSTRACT

Deep Neural Networks (DNNs) often rely on very large datasets for training. Given the large size of such datasets, it is conceivable that they contain certain samples that either do not contribute or negatively impact the DNN's optimization. Modifying the training distribution in a way that excludes such samples could provide an effective solution to both improve performance and reduce training time. In this paper, we propose to scale up ensemble Active Learning (AL) methods to perform acquisition at a large scale (10k to 500k samples at a time). We do this with ensembles of hundreds of models, obtained at a minimal computational cost by reusing intermediate training checkpoints. This allows us to automatically and efficiently perform a training data subset search for large labeled datasets. We observe that our approach obtains favorable subsets of training data, which can be used to train more accurate DNNs than training with the entire dataset. We perform an extensive experimental study of this phenomenon on three image classification benchmarks (CIFAR-10, CIFAR-100 and ImageNet), as well as an internal object detection benchmark for prototyping perception models for autonomous driving. Unlike existing studies, our experiments on object detection are at the scale required for production-ready autonomous driving systems. We provide insights on the impact of different initialization schemes, acquisition functions and ensemble configurations at this scale. Our results provide strong empirical evidence that optimizing the training data distribution can provide significant benefits on large scale vision tasks.

研究の動機と目的

データサブサンプリングによる訓練データの分布最適化が、深層ニューラルネットワークの性能向上と訓練時間短縮に寄与するかどうかを調査すること。
実世界のビジョン応用で一般的に用いられる大規模データセット（10k～500k件）を対象としたスケーラブルなアクティブラーニング手法のスケーリングを達成すること。
異なる初期化手法、アキュイジション関数、アンサンブル構成が、大規模データサブセット選択に与える影響を調査すること。
自動運転に向けた大規模物体検出データセットを含む、プロダクションに即したベンチマークで提案手法の有効性を評価すること。

提案手法

中間のチェックポイントで訓練された数百の深層ニューラルネットワークのアンサンブルを活用し、大規模なアクティブラーニングの取得を効率的に行う。
アンサンブルの予測結果を用いて、サンプルの不確実性と情報量を推定し、最も価値のある訓練データサブセットの選択を可能にする。
アンサンブル全体にわたる不確実性サンプリングやクエリ・バイ・コミッティなどのアキュイジション関数を適用し、大規模スケールでの情報量の多いサンプルの同定を実現する。
継続的な訓練から得たモデルのチェックポイントを再利用することで、計算コストを最小限に抑え、大規模なデータサブセットに対する迅速なイテレーションを可能にする。
アンサンブルの不一致度や不確実性スコアに基づき、上位k個の情報量の多いサンプルを選択することで、データサブサンプリングを実行する。
選択されたサブセット上で最終モデルを訓練し、複数のベンチマークにおいて、全データセットで訓練したモデルと性能を比較する。

実験結果

リサーチクエスチョン

RQ1大規模なアクティブラーニング（10k～500k件）を適用することで、全データセットで訓練した場合と比較して、モデルの精度が向上するか？
RQ2異なる初期化手法は、モデルアンサンブルを用いた大規模アクティブラーニングの性能にどのように影響を与えるか？
RQ3さまざまなアキュイジション関数が、大規模な設定における選択された訓練サブセットの品質に与える影響は何か？
RQ4アンサンブル構成（例：モデル数、訓練スケジュール）は、データサブサンプリングの有効性にどのように影響を与えるか？
RQ5本手法によるデータサブサンプリングは、自動運転の物体検出といったプロダクションスケールのビジョンタスクにおいて、性能向上を達成できるか？

主な発見

提案手法は、CIFAR-10、CIFAR-100、ImageNetにおいて、全データセットで訓練した場合よりも高い精度を達成した。これは、最も情報量の多いサンプルのみを選択した結果である。
アンサンブルベースのアクティブラーニングで選択されたサブセットは、すべてのベンチマークでモデル性能を維持または向上させながら、訓練時間を短縮した。
自動運転に特化した大規模な内部物体検出ベンチマークでも、本手法は優れた性能を示し、プロダクションシステムへの適用可能性を裏付けた。
異なるアキュイジション関数は異なる効果を示したが、不確実性に基づく手法は、全データセットで一貫した改善をもたらした。
モデルの多様性が高く、適切な初期化手法が用いられたアンサンブル構成は、より効果的なデータサブセット選択を実現した。
中間の訓練チェックポイントを再利用することで、大規模スケールでのスケーラブルかつ計算効率の良いアクティブラーニングが実現され、大規模データ最適化が現実可能となった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。