QUICK REVIEW

[論文レビュー] Online Multi-Task Learning Using Biased Sampling

Sahil Sharma, Balaraman Ravindran|arXiv (Cornell University)|Feb 20, 2017

Advanced Bandit Algorithms Research被引用数 1

ひとこと要約

本稿では、学習中の難易度の高いタスクを優先するためにバイアス付きサンプリングを用いる、オンラインでエキスパート不要のマルチタスク強化学習フレームワークを提案する。タスク選択をマルチアームドバンディットまたは強化学習問題として定式化することで、エキスパートポリシーの事前学習を必要とせず、さまざまなAtari 2600タスクにおいて優れた性能を達成した。6タスク、8タスク、12タスク、21タスクの設定でも有効であることを示した。

ABSTRACT

One of the long-standing challenges in Artificial Intelligence for learning goal-directed behavior is to build a single agent which can solve multiple tasks. Recent progress in multi-task learning for goal-directed sequential problems has been in the form of distillation based learning wherein a student network learns from multiple task-specific expert networks by mimicking the task-specific policies of the expert networks. While such approaches offer a promising solution to the multi-task learning problem, they require supervision from large expert networks which require extensive data and computation time for training. In this work, we propose an efficient multi-task learning framework which solves multiple goal-directed tasks in an on-line setup without the need for expert supervision. Our work uses active learning principles to achieve multi-task learning by sampling the harder tasks more than the easier ones. We propose three distinct models under our active sampling framework. An adaptive method with extremely competitive multi-tasking performance. A UCB-based meta-learner which casts the problem of picking the next task to train on as a multi-armed bandit problem. A meta-learning method that casts the next-task picking problem as a full Reinforcement Learning problem and uses actor critic methods for optimizing the multi-tasking performance directly. We demonstrate results in the Atari 2600 domain on seven multi-tasking instances: three 6-task instances, one 8-task instance, two 12-task instances and one 21-task instance.

研究の動機と目的

事前学習済みエキスパートネットワークに依存せずに、1つのエージェントが複数の目的指向タスクを解けるように学習する課題に対処すること。
大規模なエキスパートモデルからの監視を必要とする蒸留ベースのマルチタスク学習手法がもつ、高い計算コストとデータコストを克服すること。
難易度に応じて動的にタスクを選択するオンライン学習フレームワークを開発し、サンプル効率と性能を向上させること。
アクティブサンプリングによる難易度の高いタスクの優先的選択が、均一またはランダムなタスク選択に比べてマルチタスク強化学習で優れた性能を発揮するかを検証すること。
継続的学習環境における次に学習するタスクを選択するためのメタラーニングとバンディットベースの戦略の有効性を調査すること。

提案手法

アクティブラーニングの原則を用いて、難易度の高いタスクにサンプリングをバイアスし、オンライン学習中にその頻度を高める。
観察された学習進捗と難易度に基づいて、タスク選択確率を動的に調整する適応的サンプリング戦略を導入する。
タスク選択をマルチアームドバンディット問題としてモデル化するため、UCBベースのメタラーナーを採用し、タスク選択における探索と活用のバランスをとる。
エージェントが長期的なマルチタスク性能を最適化するためのポリシー学習を通じて、マルチタスク性能を直接最適化する、アクタクリティック法を用いた完全な強化学習ベースのメタラーナーを開発する。
エージェントが1つのタスクずつ学習するオンラインで継続的学習の設定を採用し、学習済みの選択ポリシーに基づいて次のタスクを選択する。
6、8、12、21タスクの設定を含む、タスク数が異なる7つのマルチタスクAtari 2600環境で、すべてのモデルを訓練および評価する。

実験結果

リサーチクエスチョン

RQ1エキスパートの監視や事前学習済みポリシーなしに、オンラインマルチタスク学習を効果的に達成できるか？
RQ2バイアス付きサンプリングによる難易度の高いタスクの優先的選択が、均一またはランダムなタスク選択に比べてマルチタスク性能を向上させるか？
RQ3UCBベースのバンディット選択と、タスク選択に完全なアクタクリティックRLを用いるメタラーニング戦略の違いが、学習効率と最終的な性能に与える影響は何か？
RQ4適応的サンプリング戦略が、タスク数が異なる多様なマルチタスク環境にどの程度一般化できるか？
RQ5提案されたフレームワークは、蒸留やエキスパートのデモンストレーションなしに、Atari 2600のスイートのような複雑で高次元の制御タスクにおいても競争力のある性能を達成できるか？

主な発見

提案手法は、エキスパートの監視を一切必要とせず、テストされた7つのAtari 2600環境すべてで競争力あるマルチタスク性能を達成した。
適応的サンプリング手法は、均一またはランダムにタスクをサンプリングするベースライン戦略を上回る優れた性能を示した。
UCBベースのメタラーナーは、タスク選択における探索と活用のバランスを効果的にとることで、複数のタスクにわたる安定的で効率的な学習を実現した。
アクタクリティック法を用いた完全なRLベースのメタラーナーは、マルチタスク性能を直接最適化し、特に12タスクおよび21タスクの複雑な設定で優れた結果を示した。
このフレームワークは、エキスパートネットワークに依存する必要を著しく減らしながら、オンラインで継続的学習の形で複数の目的指向タスクを効果的に学習することに成功した。
6タスク、8タスク、12タスク、21タスクの設定を含む、さまざまなタスク数にわたる一般化が可能であり、スケーリングに強いことが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。