QUICK REVIEW

[논문 리뷰] Less is More: An Exploration of Data Redundancy with Active Dataset Subsampling.

Kashyap Chitta, José M. Alvarez|arXiv (Cornell University)|2019. 05. 29.

Machine Learning and Algorithms참고 문헌 15인용 수 12

한 줄 요약

이 논문은 대규모 데이터셋(10k–500k 개 샘플)으로부터 가장 정보가 풍부한 학습 데이터를 식별하고 서브샘플링하기 위해 수백 개의 모델로 구성된 앙상블을 사용하는 확장 가능한 주동 학습 방법을 제안한다. 중간 학습 체크포인트를 재사용함으로써 이 방법은 높은 품질의 하위 집합을 효율적으로 선택하여 모델 정확도를 향상시키고 학습 시간을 단축시키며, CIFAR-10, CIFAR-100, ImageNet 및 생산 규모의 객체 검출 벤치마크에서 뚜렷한 성능 향상을 보였다.

ABSTRACT

Deep Neural Networks (DNNs) often rely on very large datasets for training. Given the large size of such datasets, it is conceivable that they contain certain samples that either do not contribute or negatively impact the DNN's optimization. Modifying the training distribution in a way that excludes such samples could provide an effective solution to both improve performance and reduce training time. In this paper, we propose to scale up ensemble Active Learning (AL) methods to perform acquisition at a large scale (10k to 500k samples at a time). We do this with ensembles of hundreds of models, obtained at a minimal computational cost by reusing intermediate training checkpoints. This allows us to automatically and efficiently perform a training data subset search for large labeled datasets. We observe that our approach obtains favorable subsets of training data, which can be used to train more accurate DNNs than training with the entire dataset. We perform an extensive experimental study of this phenomenon on three image classification benchmarks (CIFAR-10, CIFAR-100 and ImageNet), as well as an internal object detection benchmark for prototyping perception models for autonomous driving. Unlike existing studies, our experiments on object detection are at the scale required for production-ready autonomous driving systems. We provide insights on the impact of different initialization schemes, acquisition functions and ensemble configurations at this scale. Our results provide strong empirical evidence that optimizing the training data distribution can provide significant benefits on large scale vision tasks.

연구 동기 및 목표

대규모 실세계 시각 응용에서 흔히 사용되는 대규모 데이터셋(10k–500k 개 샘플)을 대상으로 주동 학습 방법을 확장하여, 데이터 서브샘플링을 통한 학습 데이터 분포 최적화가 딥 네트워크 성능 향상과 학습 시간 단축에 기여할 수 있는지 탐구한다.
대규모 데이터셋(10k–500k 개 샘플)을 다룰 수 있도록 주동 학습 방법을 확장한다.
다양한 초기화 방법, 수집 함수, 앙상블 구성이 대규모 데이터 하위 집합 선택에 미치는 영향을 탐구한다.
자율 주행을 위한 대규모 객체 검출 데이터셋을 포함한 생산적 응용에 적합한 벤치마크에서 제안된 방법을 평가한다.

제안 방법

중간 학습 체크포인트를 재사용함으로써 효율적인 대규모 주동 학습 수집을 가능하게 하는 수백 개의 딥 네트워크로 구성된 앙상블을 활용한다.
앙상블 예측을 통해 샘플의 불확실성과 정보량을 추정하고, 가장 가치 있는 학습 데이터 하위 집합을 선택한다.
앙상블 전반에 걸쳐 불확실성 샘플링 및 질문-통합 위원회 기반 수집 함수를 적용하여 대규모에서 정보가 풍부한 샘플을 식별한다.
지속적인 학습에서 유도된 모델 체크포인트를 재사용하여 계산 오버헤드를 최소화하고 대규모 데이터 하위 집합에 대한 빠른 반복을 가능하게 한다.
앙상블 간의 불일치 또는 불확실성 점수를 기반으로 상위-k개의 가장 정보가 풍부한 샘플을 선택하여 데이터 서브샘플링을 수행한다.
선택된 하위 집합에서 최종 모델을 학습하고, 다양한 벤치마크에서 전체 데이터셋으로 학습한 모델과의 성능을 비교한다.

실험 결과

연구 질문

RQ1대규모 주동 학습(10k–500k 개 샘플)이 전체 데이터셋으로 학습하는 것보다 더 높은 모델 정확도를 달성할 수 있는가?
RQ2다양한 초기화 방법은 대규모 주동 학습에서 모델 앙상블의 성능에 어떤 영향을 미치는가?
RQ3다양한 수집 함수가 대규모 환경에서 선택된 학습 하위 집합의 품질에 어떤 영향을 미치는가?
RQ4앙상블 구성(예: 모델 수, 학습 스케줄)은 데이터 서브샘플링의 효과성에 어떤 영향을 미치는가?
RQ5이 방법을 통한 데이터 서브샘플링이 자율 주행 객체 검출과 같은 생산 규모의 시각 작업에서 성능 향상을 이룰 수 있는가?

주요 결과

제안된 방법은 CIFAR-10, CIFAR-100, ImageNet에서 전체 데이터셋 학습보다 더 높은 정확도를 달성하며, 오직 가장 정보가 풍부한 샘플들만 선택한다.
앙상블 기반 주동 학습을 통해 선택된 하위 집합은 모든 벤치마크에서 성능을 유지하거나 향상시키면서 학습 시간을 단축시킨다.
이 방법은 자율 주행에 관련된 대규모 내부 객체 검출 벤치마크에서 뛰어난 성능을 보이며, 생산 시스템에의 적용 가능성을 입증한다.
다양한 수집 함수는 다른 성능 향상을 가져오며, 불확실성 기반 방법이 다양한 데이터셋에서 일관된 향상을 보였다.
더 높은 모델 다양성과 적절한 초기화 방법을 갖춘 앙상블 구성은 더 효과적인 데이터 하위 집합 선택을 이끌었다.
중간 학습 체크포인트를 재사용함으로써 대규모에서 확장 가능하고 계산적으로 효율적인 주동 학습이 가능해져 대규모 데이터 최적화가 실현 가능해졌다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.