QUICK REVIEW

[論文レビュー] Data Valuation using Reinforcement Learning

Jinsung Yoon, Sercan Ö. Arık|arXiv (Cornell University)|Sep 25, 2019

Domain Adaptation and Few-Shot Learning参考文献 29被引用数 45

ひとこと要約

DVRL は強化学習を用いてターゲット予測器とデータ値を共同学習し、ドメイン適応、汚損サンプルの発見、さまざまなデータセットに跨る頑健な学習のデータ評価を改善する。

ABSTRACT

Quantifying the value of data is a fundamental problem in machine learning. Data valuation has multiple important use cases: (1) building insights about the learning task, (2) domain adaptation, (3) corrupted sample discovery, and (4) robust learning. To adaptively learn data values jointly with the target task predictor model, we propose a meta learning framework which we name Data Valuation using Reinforcement Learning (DVRL). We employ a data value estimator (modeled by a deep neural network) to learn how likely each datum is used in training of the predictor model. We train the data value estimator using a reinforcement signal of the reward obtained on a small validation set that reflects performance on the target task. We demonstrate that DVRL yields superior data value estimates compared to alternative methods across different types of datasets and in a diverse set of application scenarios. The corrupted sample discovery performance of DVRL is close to optimal in many regimes (i.e. as if the noisy samples were known apriori), and for domain adaptation and robust learning DVRL significantly outperforms state-of-the-art by 14.6% and 10.8%, respectively.

研究の動機と目的

データ品質とドメイン不一致が問題となる場合に、学習を改善する手段としてデータ評価を動機づける。
ターゲット予測器とデータ値推定器を共同で訓練するメタ学習フレームワークを提案する。
対象タスクの情報量豊富なデータを優先する適応的サンプル重み付けを有効にする。
DVRL の有効性をドメイン適応、汚損サンプル発見、頑健な学習の状況で示す。

提案手法

訓練データ (x, y) ごとに選択確率 w を出力するデータ値推定器 hφ を導入する。
w に従ってサンプリングされたデータを用いた加重損失を最小化することでターゲット予測子 fθ を訓練する。
データサンプル選択を確率過程としてモデル化し、検証セット報酬を用いた REINFORCE による強化学習で φ を最適化する。
タスク性能を反映する強化信号を提供するために、小さなターゲット分布の検証セットを用いる。
ポリシー勾配更新を安定化させるために移動平均ベースライン δ を適用する。
DVRL のトレーニングオーバーヘッドがデータセットサイズに対して指数関数的でないことを示すことでスケーラビリティを実証する。

実験結果

リサーチクエスチョン

RQ1学習可能なデータ値推定器が予測子と共同で最適化され、ターゲットタスクの性能を向上させることができるか？
RQ2既存のデータ価値付け手法と比較して、DVRL はドメイン適応、汚損サンプルの発見、頑健な学習の分野でどのように機能するか？
RQ3さまざまなタスクで信頼できるデータ評価に十分な検証セットのサイズはどれくらいか？
RQ4計算コストが過度に高くなることなく、大規模データセットや複雑なモデルへDVRLはスケーラブルか？

主な発見

DVRL は画像・表形式・言語データセットを横断して、置換ベースおよびゲーム理論ベースのベースラインと比べて優れたデータ値推定を示す。
汚損サンプル発見において、DVRL がノイズの多いラベルに低い値を割り当てる能力は、多くの状況で最適な性能に近づく。
ドメイン適応と頑健な学習の分野で、DVRL は最先端手法を顕著に上回り、報告されたシナリオでは最大で 14.6% および 10.8% の差を達成している。
DVRL は大規模データセットや複雑なモデルへ対してもスケーラブルであり、トレーニングオーバーヘッドは標準トレーニングの約2倍程度で、データセットサイズの指数関数的な増加ではない。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。