[논문 리뷰] Distral: Robust Multitask Reinforcement Learning
Distral는 공유 행동을 중앙 정책으로 추출하고 이를 향해 각 과제 정책을 규제하는 멀티태스크 강화학습 프레임워크를 도입하여, 복잡한 환경에서 과제 간 안정성과 전이성을 향상시킵니다.
Most deep reinforcement learning algorithms are data inefficient in complex and rich environments, limiting their applicability to many scenarios. One direction for improving data efficiency is multitask learning with shared neural network parameters, where efficiency may be improved through transfer across related tasks. In practice, however, this is not usually observed, because gradients from different tasks can interfere negatively, making learning unstable and sometimes even less data efficient. Another issue is the different reward schemes between tasks, which can easily lead to one task dominating the learning of a shared model. We propose a new approach for joint training of multiple tasks, which we refer to as Distral (Distill & transfer learning). Instead of sharing parameters between the different workers, we propose to share a "distilled" policy that captures common behaviour across tasks. Each worker is trained to solve its own task while constrained to stay close to the shared policy, while the shared policy is trained by distillation to be the centroid of all task policies. Both aspects of the learning process are derived by optimizing a joint objective function. We show that our approach supports efficient transfer on complex 3D environments, outperforming several related methods. Moreover, the proposed learning process is more robust and more stable---attributes that are critical in deep reinforcement learning.
연구 동기 및 목표
- 다중작업 학습을 통해 심층 RL의 데이터 효율성을 높이고, 과제 간 음의 그래디언트 간섭을 완화합니다.
- 공유 정책에 공통 행동을 포착하는 증류 기반 메커니즘을 제안합니다.
- 각 과제 정책을 증류 정책 toward 정규화하고, 과제 정책들로부터의 증류를 통해 증류 정책을 학습합니다.
제안 방법
- 공통 작업 행동을 포착하는 증류 정책 π0를 정의합니다.
- 각 과제 정책 πi를 π0 toward 할인된 KL 발산으로 정규화하고 탐색 촉진을 위해 엔트로피 정규화를 추가합니다.
- 부드러운 벨만 백업과 과제 정책에 대한 볼츠만 형태의 소프트 Q-학습 업데이트를 도출합니다.
- 빠른 전이와 직접 그래디언트 흐름을 가능하게 하기 위해 증류 정책과 과제 정책을 이중 열 아키텍처로 매개화합니다.
- 증류 정책이 과제 정책의 중심점으로 학습하는 방식과 이것이 어떻게 강건한 멀티태스크 학습을 촉진하는지 설명합니다.
- KL 정규화와 엔트로피의 균형을 맞추는 여러 알고리즘 변형을 평가합니다. 교대 최적화 vs 공동 최적화를 포함하여.
실험 결과
연구 질문
- RQ1증류된 공유 정책이 표준 멀티태스크 A3C 기반선보다 멀티태스크 RL에서 데이터 효율성과 안정성을 향상시킬 수 있을까?
- RQ2KL 정규화와 엔트로피 정규화를 결합하는 것이 다양한 과제 간 전이, 탐색 및 강건성에 어떤 영향을 미치는가?
- RQ3어떤 아키텍처 선택(단일 열 대 이중 열 매개화)과 최적화 방식이 전이와 안정성을 가장 잘 촉진하는가?
주요 결과
- Distral 기반 방법은 복잡한 3D 환경에서 멀티태스크 A3C 기반선보다 학습 속도가 빠르고 최종 성능이 더 좋다.
- 두 열 변형에서 증류를 사용하는 경우 단일 열 변형보다 더 빠른 전이와 더 강건한 성능을 제공한다.
- 엔트로피 정규화는 탐색을 유지하고 조기 수렴을 방지하여 과제 전반의 강건성을 향상시킨다.
- 증류 기반 공유는 파라미터 공유만 할 때보다 학습을 안정화하는 중심점 같은 정책을 생성한다.
- Distral 방법은 더 큰 안정성과 하이퍼파라미터 설정에 대한 강건성을 보여 준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.