[論文レビュー] Learning What Data to Learn
本論文は Neural Data Filter (NDF) を提案する。深層強化学習フレームワークで、ミニバッチのデータを自動的に選択して SGD の訓練を高速化しつつ精度を保つ。MLP、CNN、RNN のタスクでその有効性を示す。
Machine learning is essentially the sciences of playing with data. An adaptive data selection strategy, enabling to dynamically choose different data at various training stages, can reach a more effective model in a more efficient way. In this paper, we propose a deep reinforcement learning framework, which we call \emph{\textbf{N}eural \textbf{D}ata \textbf{F}ilter} (\textbf{NDF}), to explore automatic and adaptive data selection in the training process. In particular, NDF takes advantage of a deep neural network to adaptively select and filter important data instances from a sequential stream of training data, such that the future accumulative reward (e.g., the convergence speed) is maximized. In contrast to previous studies in data selection that is mainly based on heuristic strategies, NDF is quite generic and thus can be widely suitable for many machine learning tasks. Taking neural network training with stochastic gradient descent (SGD) as an example, comprehensive experiments with respect to various neural network modeling (e.g., multi-layer perceptron networks, convolutional neural networks and recurrent neural networks) and several applications (e.g., image classification and text understanding) demonstrate that NDF powered SGD can achieve comparable accuracy with standard SGD process by using less data and fewer iterations.
研究の動機と目的
- トレーニング効率を向上させる一般的で前向きな問題としてデータ選択を動機づける。
- データ選択を学習して長期報酬を最適化する DRL ベースの教師-生徒フレームワークを開発する。
- 様々なニューラルアーキテクチャとドメインにわたり mini-batch SGD に NDF を適用し、汎用性を検証する。
- 学習されたデータ選択が最終的な精度と同程度で収束を速めることを示す。
提案手法
- データフィルタリングを含む SGD-MDP として SGD 訓練を定式化し、状態は到着するミニバッチと現在のモデルパラメータを結合する。
- ミニバッチ内のどのインスタンスを保持またはフィルタするかを決定するポリシー A(s;Θ) を用いる(a ∈ {0,1}^M)。
- 状態 s をデータ特徴量、基礎モデル特徴量、データ-モデル結合特徴量で表現し、ポリシーのための f(s) を導出する。
- REINFORCE(ポリシー勾配)でポリシーを最適化し、期待される累積報酬 R(s,a) を最大化する。
- 検証精度などの訓練信号から報酬を定義し、長期効果を捉える割引因子 γ を用いる。
- データのサブセット D′ の上でポリシーを訓練し、SGD 中には学習済みポリシーを全データ D に適用する。
実験結果
リサーチクエスチョン
- RQ1強化学習を用いて、SGD の収束を改善するデータフィルタリングポリシーを自動的に学習できるだろうか?
- RQ2学習されたデータ選択ポリシーは、異なるモデルタイプ(MLP、CNN、RNN)やドメイン(視覚、テキスト)に対して汎用化できるか?
- RQ3収束速度と最終精度の点で、NDF は自己ペース学習などのヒューリスティックなデータ選択法と比べてどうか?
- RQ4効果的なデータフィルtration ポリシー学習のために、トレーニング状態を最もよく表す特徴量は何か?
主な発見
- NDF は MLP、CNN、RNN の実験を横断して収束を加速し、必要な訓練データ量を削減する。
- 学習されたデータフィルtration ポリシーは、訓練が進むにつれてより難しい例を選択する傾向があり、ヒューリスティックな SPL の振る舞いと異なる。
- NDF はフィルタリングなしの SGD および RandDrop を一貫して上回り、収束速度ではしばしば SPL を上回る。
- NDF で訓練されたポリシーはハイパーパラメータ設定に対して堅牢で、タスク間で高い汎用性を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。