[論文レビュー] Selection via Proxy: Efficient Data Selection for Deep Learning
Proxyによる選択(SVP)は、小さく高速なプロキシモデルを用いて深層学習のアクティブ学習とコアセット選択のデータ選択を行い、複数データセットで最終精度の僅かな損失で大幅なスピードアップを実現します。
Data selection methods, such as active learning and core-set selection, are useful tools for machine learning on large datasets. However, they can be prohibitively expensive to apply in deep learning because they depend on feature representations that need to be learned. In this work, we show that we can greatly improve the computational efficiency by using a small proxy model to perform data selection (e.g., selecting data points to label for active learning). By removing hidden layers from the target model, using smaller architectures, and training for fewer epochs, we create proxies that are an order of magnitude faster to train. Although these small proxy models have higher error rates, we find that they empirically provide useful signals for data selection. We evaluate this "selection via proxy" (SVP) approach on several data selection tasks across five datasets: CIFAR10, CIFAR100, ImageNet, Amazon Review Polarity, and Amazon Review Full. For active learning, applying SVP can give an order of magnitude improvement in data selection runtime (i.e., the time it takes to repeatedly train and select points) without significantly increasing the final error (often within 0.1%). For core-set selection on CIFAR10, proxies that are over 10x faster to train than their larger, more accurate targets can remove up to 50% of the data without harming the final accuracy of the target, leading to a 1.6x end-to-end training time improvement.
研究の動機と目的
- 深層学習のデータ選択手法(アクティブ学習とコアセット選択)を動機づけ、それらの高い計算コストに対処する。
- 選択のために高価なターゲットモデル表現をより安価なプロキシ表現に置換するSVPを提案。
- プロキシベースの選択が、複数のデータセットでデータ選択時間を大幅に削減しつつ最終的な精度を保持することを示す。
- 選択プロセスにプロキシを使用する正当性を示すため、プロキシとターゲットモデル間のランキング相関の実証的証拠を示す。
提案手法
- ターゲットの意思決定境界を近似するために深さ/幅を縮小したり、より少ないエポックで学習させることで安価なプロキシモデルを作成する。
- 選択指標(不確実性、距離ベースの多様性、忘却イベント)を計算する際にターゲットモデル表現をプロキシ表現に置換する。
- SVPを2つのデータ選択パ paradigmsに適用する:(i)最小信頼と貪欲なk-centersを用いたアクティブ学習、(ii)忘却イベント、エントロピー、貪欲なk-centersを用いたコアセット選択。
- 最終的なテスト誤差への影響を評価するため、完全データで訓練されたターゲットと比較して選択を比較。
- プロキシとターゲットのランキングの相関(Spearman/Pearson)を評価し、プロキシの有効性を説明する。
- CIFAR-10/100、ImageNet、Amazon Review Polarity、Amazon Review Fullといったデータセットを、ResNet系などのプロキシとターゲットとして用いる。
実験結果
リサーチクエスチョン
- RQ1小さなプロキシモデルは、大規模なターゲットモデルと比較して情報量の多いデータポイントを選択する信頼できるランキングを提供できるか?
- RQ2SVPはアクティブ学習とコアセットタスクでどの程度のランタイムの速度アップを達成できるか?
- RQ3プロキシベースの選択は、多様なデータセットとモダリティにわたってターゲットモデルベースの選択と同様の最終的なテスト精度を維持するか?
- RQ4ランキングシグナル(不確実性、忘却イベント、エントロピー、k-centers)はプロキシとターゲットモデル間でどれくらい相関するか?
- RQ5SVPは画像分類を超え、さまざまなアーキテクチャとタスクにも広く適用可能か?
主な発見
- SVPは、Amazon Review PolarityおよびFullでデータ選択の実行時間を最大41.9倍、CIFAR-10/100ではアクティブ学習で最大7倍のスピードアップを達成。
- SVPは、ほとんどの場合、ベースラインのターゲットモデル選択と比較して最終精度の損失を0.1%程度の範囲で抑える。
- プロキシによるコアセット選択は、ResNet164の精度を顕著な低下なしに最大50%削減し、エンドツーエンドの訓練スピードを約1.6倍にする。
- 不確実性、忘却イベント、k-centersのランキング例に関して、エポック数を減らしたり小さなアーキテクチャで訓練したプロキシは大規模ターゲットモデルと高い相関を示す。
- データセットとアーキテクチャを超えて、プロキシのランキングは大規模モデルと高いSpearman/Pearson相関を示し、SVPの広い適用性を支持している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。