QUICK REVIEW

[논문 리뷰] Reinforcement Learning with Unsupervised Auxiliary Tasks

Max Jaderberg, Volodymyr Mnih|arXiv (Cornell University)|2016. 11. 16.

Reinforcement Learning in Robotics인용 수 271

한 줄 요약

UNREAL은 A3C를 비지도 보조 과제로 보강하여 더 풍부한 표현을 학습하고 Atari와 Labyrinth에서 데이터 효율성과 성능을 높인다.

ABSTRACT

Deep reinforcement learning agents have achieved state-of-the-art results by directly maximising cumulative reward. However, environments contain a much wider variety of possible training signals. In this paper, we introduce an agent that also maximises many other pseudo-reward functions simultaneously by reinforcement learning. All of these tasks share a common representation that, like unsupervised learning, continues to develop in the absence of extrinsic rewards. We also introduce a novel mechanism for focusing this representation upon extrinsic rewards, so that learning can rapidly adapt to the most relevant aspects of the actual task. Our agent significantly outperforms the previous state-of-the-art on Atari, averaging 880\% expert human performance, and a challenging suite of first-person, three-dimensional \emph{Labyrinth} tasks leading to a mean speedup in learning of 10$ imes$ and averaging 87\% expert human performance on Labyrinth.

연구 동기 및 목표

extrinsic reward 외에 보조적인 의사 보상으로 학습함으로써 더 빠르고 강건한 학습을 촉진한다.
기반 태스크와 보조 태스크 모두에 이익이 되는 공유 표현(CNN-LSTM)을 개발한다.
reward-focused auxiliary objectives를 통해 학습된 표현을 extrinsic reward로 방향화한다.
경험 재생을 활용하여 가치 반복을 가속하고 off-policy 보조 학습을 지원한다.

제안 방법

보조 제어 과제(pixel control 및 feature control)을 추가적인 의사 보상 함수로 도입하여 기본 에이전트와 파라미터를 공유하는 별도의 보조 정책을 학습한다.
보조 보상 과제(reward prediction)를 추가하여 정책에 편향을 주지 않으면서 임박한 보상을 예측하도록 특징 학습을 편향한다.
가치 함수 재생을 도입하여 재생된 데이터에 대해 off-policy 가치 업데이트를 수행한다.
보상 예측을 위한 보상 이벤트 과다 샘플링 및 off-policy 보조 과제의 안정성을 유지하기 위한 왜곡된 재생 샘플링을 사용한다.
손실을 UNREAL 목표로 결합: L_UNREAL = L_A3C + lambda_VR L_VR + lambda_PC sum_c L_Q^(c) + lambda_RP L_RP (식 2).
기본 태스크와 보조 태스크 간에 CNN-LSTM 표현을 공유하고 off-policy 보조 태스크 업데이트와 함께 on-policy A3C 업데이트를 적용한다.]
research_questions equivalent translation to Korean.

실험 결과

연구 질문

RQ1거칠고 시각적 환경에서 순수 A3C 대비 보조 제어 및 보상 과제를 추가하면 샘플 효율이 개선되는가?
RQ2초매개변수(학습률, 엔트로피 비용)에 대해 보조 과제가 기본보다 더 강건한가?
RQ33D Labyrinth 및 Atari 모음에서 표준 비지도 재구성보다 보조 과제가 최종 성능을 향상시키는가?
RQ4다양한 태스크 간 공통 표현 공유가 학습 속도와 최종 정책 품질에 어떤 영향을 미치는가?

주요 결과

UNREAL은 Labyrinth에서 인간-정규화 점수 87%를 달성(기존 A3C의 54% 대비).
UNREAL은 Labyrinth에서 학습 속도 10배의 평균 증가를 달성(일부 레벨에서 최대 18배).
Atari에서 UNREAL은 이전의 최첨단 성능을 능가하여 평균 880%, 중앙값 250%의 인간-정규화 성능을 달성.
다른 태스크에 대해 A3C보다 하이퍼파라미터 설정에 대한 강건성이 더 큼.
보조 과제, 특히 픽셀 제어와 보상 예측은 데이터 효율성과 최종 성능을 베이스라인 및 재구성 기반 접근법에 비해 크게 향상시킴.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.