QUICK REVIEW

[논문 리뷰] Online Multi-Task Learning Using Biased Sampling

Sahil Sharma, Balaraman Ravindran|arXiv (Cornell University)|2017. 02. 20.

Advanced Bandit Algorithms Research인용 수 1

한 줄 요약

이 논문은 훈련 중 더 어려운 작업을 우선시하기 위해 편향된 샘플링을 사용하는 온라인, 전문가 없이 다중 작업 강화 학습 프레임워크를 제안한다. 작업 선택을 다중 손잡이 슬롯머신 또는 강화 학습 문제로 재정의함으로써, 사전 훈련된 전문가 정책이 필요 없이 다양한 Atari 2600 작업에서 뛰어난 성능을 달성하며, 6-, 8-, 12-, 21개 작업 설정 모두에서 효과적인 학습을 보여준다.

ABSTRACT

One of the long-standing challenges in Artificial Intelligence for learning goal-directed behavior is to build a single agent which can solve multiple tasks. Recent progress in multi-task learning for goal-directed sequential problems has been in the form of distillation based learning wherein a student network learns from multiple task-specific expert networks by mimicking the task-specific policies of the expert networks. While such approaches offer a promising solution to the multi-task learning problem, they require supervision from large expert networks which require extensive data and computation time for training. In this work, we propose an efficient multi-task learning framework which solves multiple goal-directed tasks in an on-line setup without the need for expert supervision. Our work uses active learning principles to achieve multi-task learning by sampling the harder tasks more than the easier ones. We propose three distinct models under our active sampling framework. An adaptive method with extremely competitive multi-tasking performance. A UCB-based meta-learner which casts the problem of picking the next task to train on as a multi-armed bandit problem. A meta-learning method that casts the next-task picking problem as a full Reinforcement Learning problem and uses actor critic methods for optimizing the multi-tasking performance directly. We demonstrate results in the Atari 2600 domain on seven multi-tasking instances: three 6-task instances, one 8-task instance, two 12-task instances and one 21-task instance.

연구 동기 및 목표

사전 훈련된 전문가 네트워크에 의존하지 않고 단일 에이전트가 다수의 목표 지향 작업을 해결할 수 있도록 하는 도전에 대응한다.
대규모 전문가 모델의 지도를 필요로 하는 딜리게이션 기반 다중 작업 학습 방법의 높은 계산 비용과 데이터 비용을 극복한다.
어려움에 따라 동적으로 작업을 선택하는 온라인 학습 프레임워크를 개발하여 샘플 효율성과 성능을 향상시킨다.
활성 샘플링을 통해 더 어려운 작업을 우선 선택하는 것이 다중 작업 강화 학습에서 균일하거나 무작위 작업 선택보다 우수한 성능을 낼 수 있는지 조사한다.
지속적 학습 환경에서 다음 훈련 작업을 선택하는 데 있어 메타학습 및 밴딧 기반 전략의 효과를 탐구한다.

제안 방법

온라인 학습 중 더 어려운 작업에 대한 샘플링 비중을 높여 학습 빈도를 증가시키기 위해 활성 학습 원리를 활용한다.
관측된 학습 진전과 어려움에 기반해 작업 선택 확률을 조정하는 적응형 샘플링 전략을 도입한다.
UCB 기반 메타-학습자로 작업 선택을 다중 손잡이 슬롯머신 문제로 모델링하여 작업 선택에서 탐색과 이용의 균형을 이룬다.
액터-크리틱 방법을 활용해 정책 학습을 통해 장기적인 다중 작업 성능을 최적화하는 전면적인 강화 학습 기반 메타-학습자를 개발한다.
에이전트가 한 번에 하나의 작업만 훈련하는 온라인 및 지속적 학습 환경에서, 학습된 선택 정책에 기반해 다음 작업을 선택하는 방식을 적용한다.
6, 8, 12, 21개 작업을 포함한 다양한 작업 수를 가진 일곱 개인터 테스트 환경에서 모든 모델을 훈련하고 평가한다.

실험 결과

연구 질문

RQ1전문가 지도나 사전 훈련된 정책이 없이도 온라인 다중 작업 학습을 효과적으로 달성할 수 있는가?
RQ2편향된 샘플링을 통해 더 어려운 작업을 우선 선택하면 균일하거나 무작위 작업 선택보다 다중 작업 성능이 향상되는가?
RQ3메타학습 전략의 유형—UCB 기반 밴딧 선택 대비 전면적인 액터-크리틱 RL을 통한 작업 선택—은 학습 효율성과 최종 성능에 어떤 영향을 미치는가?
RQ4적응형 샘플링 전략이 다양한 수의 작업을 포함하는 다양한 다중 작업 환경에서 얼마나 일반화되는가?
RQ5제안된 프레임워크는 딜리게이션 또는 전문가 시연 없이도 복잡한 고차원 제어 작업, 예를 들어 Atari 2600 스위트에서 경쟁 가능한 성능을 달성할 수 있는가?

주요 결과

제안된 방법은 전문가 지도 없이도 테스트한 일곱 개인터 Atari 2600 환경 전반에서 경쟁 가능한 다중 작업 성능을 달성한다.
적응형 샘플링 방법은 균일하거나 무작위로 작업을 샘플링하는 기준선 전략보다 뛰어난 성능을 보여준다.
UCB 기반 메타-학습자는 작업 선택에서 탐색과 이용의 균형을 효과적으로 유지하여 다수의 작업에서 안정적이고 효율적인 학습을 이끈다.
액터-크리틱 방법을 활용한 전면적인 RL 기반 메타-학습자는 다중 작업 성능을 직접 최적화하며, 특히 12 및 21개 작업 설정에서 뛰어난 성과를 보인다.
프레임워크는 온라인 및 지속적 학습 방식으로 다수의 목표 지향 작업을 효과적으로 해결할 수 있었으며, 고비용 전문가 네트워크에 대한 의존도를 크게 감소시켰다.
이 방법은 6-, 8-, 12-, 21개 작업 설정을 포함한 다양한 작업 수에 대해 일반화되며, 스케일 변화에 대한 강건성을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.