Skip to main content
QUICK REVIEW

[논문 리뷰] Multi-Task Reinforcement Learning with Soft Modularization

Ruihan Yang, Huazhe Xu|arXiv (Cornell University)|2020. 03. 30.
Reinforcement Learning in Robotics참고 문헌 48인용 수 58
한 줄 요약

본 논문은 기초 정책에 모듈을 두고 작업별로 모듈을 부드럽게 조합하는 경로망을 도입하여 다중 작업 강화 학습의 소프트 모듈화를 제안하고, 50개의 로봇 조작 작업에서 샘플 효율성과 최종 성능을 향상시킵니다.

ABSTRACT

Multi-task learning is a very challenging problem in reinforcement learning. While training multiple tasks jointly allow the policies to share parameters across different tasks, the optimization problem becomes non-trivial: It remains unclear what parameters in the network should be reused across tasks, and how the gradients from different tasks may interfere with each other. Thus, instead of naively sharing parameters across tasks, we introduce an explicit modularization technique on policy representation to alleviate this optimization issue. Given a base policy network, we design a routing network which estimates different routing strategies to reconfigure the base network for each task. Instead of directly selecting routes for each task, our task-specific policy uses a method called soft modularization to softly combine all the possible routes, which makes it suitable for sequential tasks. We experiment with various robotics manipulation tasks in simulation and show our method improves both sample efficiency and performance over strong baselines by a large margin.

연구 동기 및 목표

  • 딥 RL에서 이질적인 작업 간 파라미터 공유의 최적화 문제를 해결한다.
  • 각 작업에 맞게 기본 정책을 자동으로 재구성하는 소프트 모듈화 프레임워크를 제안한다.
  • 기본 정책과 라우팅 네트워크를 엔드투엔드로 학습하여 작업별 모듈 사용을 학습한다.
  • 메타월드(Meta-World) 작업에서 강력한 베이스라인 대비 샘플 효율성과 최종 성능의 향상을 보여준다.

제안 방법

  • 두 네트워크 아키텍처: 다중 모듈 기본 정책과 모듈 가중 확률을 출력하는 라우팅 네트워크.
  • 하드 라우팅이 아닌 각 작업이 모듈의 가중 결합을 학습하는 소프트 모듈화로 엔드투엔드 학습이 가능하도록 한다.
  • 라우팅 가중치는 상태 표현 및 작업 임베딩을 사용해 계산되며, 레이어별 라우팅 확률에 대한 수식이 제시되어 작업 조건부 모듈 재결합을 가능하게 한다.
  • 작업 조건부 정책과 여러 작업 간의 공동 학습을 포함하는 Soft Actor-Critic(SAC)을 기반으로 한 정책 최적화 및 자동 손실 균형 조정(작업별 온도 매개변수 포함).
  • SAC 엔트로피-온도 신호(alpha)에 따라 작업 손실의 지수 가중치를 이용한 자동 균형 조정.
  • 샘플 효율성과 최종 성능 평가를 위해 MT10/MT50 벤치마크의 메타월드에서 고정된 목표 대 조건부 목표를 이용한 실험.

실험 결과

연구 질문

  • RQ1소프트 모듈화가 많은 로봇 조작 작업 전반에 걸쳐 네트워크 모듈의 효과적인 공유를 가능하게 할 수 있는가?
  • RQ2기본 정책과 라우팅 네트워크를 엔드투엔드로 학습하는 것이 베이스라인 대비 샘플 효율성과 최종 성능을 개선하는가?
  • RQ3모듈 수와 네트워크 깊이가 성능과 다작성 확장성에 어떤 영향을 미치는가?
  • RQ4라우팅 입력과 작업별 손실 균형 조정이 학습에 어떤 역할을 하는가?

주요 결과

방법MT10-고정MT10-조건부MT50-고정MT50-조건부
MT-SAC ∗39.5%-28.8%-
MT-SAC44.0%42.6%31.4%28.3%
MT-MH-SAC ∗88.0%-35.9%-
MT-MH-SAC85.0%67.4%35.5%34.2%
Mix-Expert42.8%40.0%36.1%37.5%
Hard Routing20.8%27.0%22.9%29.1%
Ours (Shallow)87.0%71.8%59.5%60.4%
Ours (Deep)86.7%68.4%60.0%61.0%
  • 메타월드에서 강력한 다중 작업 베이스라인에 비해 샘플 효율성과 최종 성능이 크게 향상되었습니다.
  • 50개 작업(MT50)에서 제안 방법이 베이스라인을 크게 능가하며 조작 성공률을 거의 두 배로 향상시킵니다.
  • 라우팅을 통한 소프트 모듈화는 작업 간 기술 재사용을 가능하게 하고 작업별 모듈 사용 패턴을 보여줍니다.
  • 깊은 라우팅 네트워크는 작업 수에 따라 이점을 보이고, MT50에서는 깊이가 유리하며 MT10에서는 얕은 네트워크가 때로 충분합니다.
  • 작은 파라미터 효율적 모델이 더 큰 베이스라인보다 우수할 수 있으며 효율적인 기술 공유를 강조합니다.
  • 절삭 연구에서 라우팅 입력(상태 및 작업 임베딩)과 손실 균형 조정이 성능에 결정적임을 보여줍니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.