[논문 리뷰] Data Valuation using Reinforcement Learning
DVRL는 목표 예측기와 함께 데이터 값을 강화 학습을 사용하여 학습을 개선하고, 도메인 적응, 손상된 샘플 발견, 다양한 데이터셋에서의 강건한 학습에 대한 데이터 가치 평가를 향상시킵니다.
Quantifying the value of data is a fundamental problem in machine learning. Data valuation has multiple important use cases: (1) building insights about the learning task, (2) domain adaptation, (3) corrupted sample discovery, and (4) robust learning. To adaptively learn data values jointly with the target task predictor model, we propose a meta learning framework which we name Data Valuation using Reinforcement Learning (DVRL). We employ a data value estimator (modeled by a deep neural network) to learn how likely each datum is used in training of the predictor model. We train the data value estimator using a reinforcement signal of the reward obtained on a small validation set that reflects performance on the target task. We demonstrate that DVRL yields superior data value estimates compared to alternative methods across different types of datasets and in a diverse set of application scenarios. The corrupted sample discovery performance of DVRL is close to optimal in many regimes (i.e. as if the noisy samples were known apriori), and for domain adaptation and robust learning DVRL significantly outperforms state-of-the-art by 14.6% and 10.8%, respectively.
연구 동기 및 목표
- 데이터 품질 저하와 도메인 불일치가 문제일 때 학습 성능을 향상시키는 수단으로 데이터 가치를 정당화한다.
- 데이터 가치 추정기와 대상 예측기를 함께 학습시키는 메타-학습 프레임워크를 제안한다.
- 타깃 작업에 대한 정보가 풍부한 데이터를 우선하기 위한 적응형 샘플 가중치를 가능하게 한다.
- 도메인 적응, 손상된 샘플 발견, 그리고 강건한 학습 시나리오 전반에서 DVRL의 효과를 입증한다.
제안 방법
- 학습 데이터 집합 (x, y) 각각에 대해 선택 확률 w를 출력하는 데이터 가치 추정기 hφ를 도입한다.
- w에 따라 샘플링된 데이터를 사용하여 가중 손실을 최소화함으로써 대상 예측기 fθ를 학습시킨다.
- 데이터 샘플 선택을 확률적 프로세스로 모델링하고 검증 세트 보상을 사용하여 REINFORCE를 통한 강화 학습으로 φ를 최적화한다.
- 작은 타깃 분포의 검증 세트를 사용하여 작업 성능을 반영하는 강화 신호를 제공한다.
- 정책 경사 업데이트를 안정시키기 위해 이동 평균 기준선 δ를 적용한다.
- 데이터셋 크기에 비해 DVRL의 학습 오버헤드가 지수적으로 증가하지 않는다는 점을 보여 확장성을 입증한다.
실험 결과
연구 질문
- RQ1학습 가능한 데이터 가치 추정기가 예측기와 함께 최적화되어 타깃 작업 성능을 향상시킬 수 있는가?
- RQ2기존 데이터 가치 평가 방법과 비교해 DVRL은 도메인 적응, 손상된 샘플 발견, 그리고 강건한 학습에서 어떻게 성능을 보이는가?
- RQ3다양한 작업에서 신뢰할 수 있는 데이터 가치를 위해 필요한 검증 세트 크기는 어느 정도인가?
- RQ4높은 데이터셋과 복잡한 모델에도 DVRL이 비해적 계산 비용 없이 확장 가능한가?
주요 결과
- DVRL은 이미지, 표, 언어 데이터셋에서 순열 기반 및 게임 이론 기반 기반선보다 우수한 데이터 가치 추정치를 산출한다.
- 손상된 샘플 발견에서 DVRL이 노이즈 레이블에 낮은 값을 할당하는 능력은 많은 경우에서 최적 성능에 근접한다.
- 도메인 적응 및 강건한 학습의 경우 DVRL은 최신 방법을 상당한 차이로 크게 능가한다(예: 보고된 시나리오에서 최대 14.6% 및 10.8%).
- DVRL은 대규모 데이터셋과 복잡한 모델에서도 확장성을 유지하며, 학습 오버헤드는 표준 학습의 약 두 배로 데이터셋 크기에 대해 지수적이지 않다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.