QUICK REVIEW

[論文レビュー] Learning Algorithms for Active Learning

Philip Bachman, Alessandro Sordoni|arXiv (Cornell University)|Jul 31, 2017

Machine Learning and Algorithms参考文献 38被引用数 53

ひとこと要約

メタ学習モデルがエンドツーエンドで学習戦略、データ表現、予測構築を関連タスク全体で習得するアクティブ学習戦略を学習し、Omniglotのワンショット分類とMovieLensのコールドスタート推奨で実証する。

ABSTRACT

We introduce a model that learns active learning algorithms via metalearning. For a distribution of related tasks, our model jointly learns: a data representation, an item selection heuristic, and a method for constructing prediction functions from labeled training sets. Our model uses the item selection heuristic to gather labeled training sets from which to construct prediction functions. Using the Omniglot and MovieLens datasets, we test our model in synthetic and practical settings.

研究の動機と目的

関連タスクからアクティブ学習ポリシーを学習することによってラベリングコストの削減を動機づける。
データ表現、選択戦略、予測構築を共同で学習するエンドツーエンドモデルを提案する。
事前にラベルが存在しない設定へMatching Networksを拡張し、逆伝播と強化学習で最適化する。
OmniglotのワンショットタスクとMovieLensのコールドスタート推奨でこのアプローチを実証する。

提案手法

アクティブ学習を、ラベル付きサポートセットとラベルなしプールを持つ逐次決定問題として構成する。
学習済みのアイテム選択ポリシーと文脈依存エンコードを組み込んだMatching Networksを拡張して予測を構築する。
効率のためのオラクルポリシーを用いた、バックプロパゲーションとポリシー勾配（GAE）の組み合わせでエンドツーエンドでアーキテクチャを訓練する。
トレーニングを導くために、高速（ within-support ）および低速（ held-out 評価）の予測モジュールを使用する。
文脈フリーと文脈依存のエンコーダ、コントローラ LSTM、選択モジュール、注意機構を備えたMatching Network予測器を組み込む。
予測報酬とラベリングコストのバランスを取る目的関数の近似によって最適化する。

実験結果

リサーチクエスチョン

RQ1学習済みのアクティブ学習ポリシーは、関連タスク全体で設計済みのヒューリスティクスを上回ることができるか。
RQ2エンドツーエンドのメタ学習は、アクティブ学習のための表現、選択戦略、予測構築をどの程度共同に最適化できるか。
RQ3訓練時に見たよりも多いクラスやショット数（例えば20ウェイ Omniglot）に一般化できるか。
RQ4MovieLensのような実務的なコールドスタート推奨システムの設定でこのアプローチは有効か。

主な発見

5ウェイ	10ウェイ	1ショット	2ショット	3ショット	1ショット	2ショット
マッチングネット（ランダム）	69.8% ±0.10	93.1% ±0.07	98.5% ±0.04	67.3% ±0.10	91.2% ±0.06	97.6% ±0.06
マッチングネット（バランスド）	97.9% ±0.07	98.9% ±0.07	99.2% ±0.06	96.5% ±0.04	98.3% ±0.03	98.7% ±0.05
アクティブ MN	97.4% ±0.11	99.0% ±0.08	99.3% ±0.03	94.3% ±0.24	98.0% ±0.07	98.5% ±0.06
Min-Max-Cos	97.4% ±0.11	99.3% ±0.02	99.4% ±0.04	93.5% ±0.11	98.4% ±0.02	98.8% ±0.03

Omniglotでは、アクティブ学習器は楽観的な平衡ベースラインに近づき、多くの場合それをほぼ上回るが、難しい設定（例：1ショット、10ウェイ）ではわずかに劣化する。
アクティブポリシーはいつでも良好な性能を示し、訓練時より多いクラス数の問題（例：20ウェイ分類）へ一般化する。
1ショット10ウェイでは楽観的ベースラインと比較して2.2パーセンテージポイント低下が見られ、タスクが難しくなると難しさを示す。
MovieLensでは、学習済みポリシーがRMSEでベースラインを上回り、10件の評価後に約2.5%の改善を達成する。
モデルのアクティブ学習コンポーネント（選択と高速/低速予測）は不可欠で、重要な特徴（例：アテンション温度）を削除すると性能が低下する。
全体として、表現・選択・予測をエンドツーエンドで学習することは、ワンショット分類と協調フィルタリングの両方でタスク非特化のヒューリスティクスを上回る可能性がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。