[논문 리뷰] Learning What Data to Learn
논문은 Neural Data Filter (NDF)를 제안한다. 이는 미니배치에서 데이터를 자동으로 선택하여 SGD 학습 속도를 높이면서 정확도를 유지하는 심층 강화 학습 프레임워크로, MLP, CNN, RNN 작업 전반에 걸쳐 시연된다.
Machine learning is essentially the sciences of playing with data. An adaptive data selection strategy, enabling to dynamically choose different data at various training stages, can reach a more effective model in a more efficient way. In this paper, we propose a deep reinforcement learning framework, which we call \emph{ extbf{N}eural extbf{D}ata extbf{F}ilter} ( extbf{NDF}), to explore automatic and adaptive data selection in the training process. In particular, NDF takes advantage of a deep neural network to adaptively select and filter important data instances from a sequential stream of training data, such that the future accumulative reward (e.g., the convergence speed) is maximized. In contrast to previous studies in data selection that is mainly based on heuristic strategies, NDF is quite generic and thus can be widely suitable for many machine learning tasks. Taking neural network training with stochastic gradient descent (SGD) as an example, comprehensive experiments with respect to various neural network modeling (e.g., multi-layer perceptron networks, convolutional neural networks and recurrent neural networks) and several applications (e.g., image classification and text understanding) demonstrate that NDF powered SGD can achieve comparable accuracy with standard SGD process by using less data and fewer iterations.
연구 동기 및 목표
- 데이터 선택을 훈련 효율성을 개선할 수 있는 일반적이고 미래지향적 문제로 동기를 부여한다.
- long-term rewards를 최적화하도록 데이터 선택이 학습되는 DRL 기반 교사-학생 프레임워크를 개발한다.
- 다양한 신경망 아키텍처와 도메인에서 NDF를 미니배치 SGD에 적용하여 일반성을 테스트한다.
- 학습된 데이터 선택이 최종 정확도와 비례하는 속도로 수렴을 가속할 수 있음을 Demonstrate한다.
제안 방법
- SGD 훈련을 데이터 여과와 함께 구성하여 SGD-MDP로 표현하고 상태는 도착하는 미니배치와 현재 모델 매개변수를 결합한다.
- 정책 A(s;Θ)를 사용하여 미니배치에서 어떤 인스턴스를 남길지 또는 필터링할지 결정한다 (a ∈ {0,1}^M).
- 상태 s를 데이터 특징, 기본 모델 특징, 결합된 데이터-모델 특징으로 표현하고 정책의 f(s)를 도출한다.
- 기대 누적 보상 R(s,a)을 최대화하도록 REINFORCE(정책 경사)를 사용하여 정책을 최적화한다.
- 검증 정확도 등의 훈련 신호로부터 보상을 정의하고, 장기 효과를 포착하기 위해 할인 인자 γ를 사용한다.
- D′의 샘플 데이터 세트에서 정책을 학습하고 SGD 중 전체 데이터 D에 대해 학습된 정책을 적용한다.
실험 결과
연구 질문
- RQ1강화 학습을 사용하여 SGD 수렴을 개선하는 데이터 여과 정책을 자동으로 학습할 수 있는가?
- RQ2학습된 데이터 선택 정책이 모델 유형(MLP, CNN, RNN) 및 도메인(비전, 텍스트) 전반에 걸쳐 일반화될 수 있는가?
- RQ3수렴 속도 및 최종 정확도 측면에서 NDF가 자가 학습(SPL)과 같은 휴리스틱 데이터 선택 방법과 어떻게 비교되는가?
- RQ4데이터 여과 정책 학습에 효과적인 학습 상태를 가장 잘 나타내는 특징은 무엇인가?
주요 결과
- NDF는 MLP, CNN, RNN 실험에서 수렴 속도를 높이고 필요한 학습 데이터를 감소시킨다.
- 학습된 데이터 여과 정책은 학습이 진행될수록 더 어려운 예를 선택하는 경향이 있으며, 휴리스틱 SPL 동작과 다르게 나타난다.
- NDF는 일관되게 필터링되지 않은 SGD 및 RandDrop보다 우수하고, 수렴 속도 측면에서 SPL을 능가하는 경우가 많다.
- NDF로 학습된 정책은 하이퍼파라미터 설정에 대해 강건하고 작업 간 일반화가 뛰어난 것으로 나타난다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.