Skip to main content
QUICK REVIEW

[논문 리뷰] Observational Learning by Reinforcement Learning

Diana Borsa, Bilal Piot|arXiv (Cornell University)|2017. 06. 20.
Reinforcement Learning in Robotics참고 문헌 22인용 수 26
한 줄 요약

이 논문은 관찰 학습—에이전트가 다른 에이전트의 행동을 관찰함으로써 정책을 향상시키는 방식—이 전문가의 모델링 없이도 딥 강화학습(DeepRL)에서 자연스럽게 발생할 수 있음을 보여준다. A3C에 메모리를 결합함으로써 에이전트는 희박한 환경 보상 신호를 통해 교사의 행동을 모방하거나 정보를 획득하게 되며, 부분 관찰 환경에서도 전문가가 관찰한 에이전트와 유사한 성능을 달성할 수 있고, 이후 커리큘럼 학습을 통해 독립적으로 작동할 수 있다.

ABSTRACT

Observational learning is a type of learning that occurs as a function of observing, retaining and possibly replicating or imitating the behaviour of another agent. It is a core mechanism appearing in various instances of social learning and has been found to be employed in several intelligent species, including humans. In this paper, we investigate to what extent the explicit modelling of other agents is necessary to achieve observational learning through machine learning. Especially, we argue that observational learning can emerge from pure Reinforcement Learning (RL), potentially coupled with memory. Through simple scenarios, we demonstrate that an RL agent can leverage the information provided by the observations of an other agent performing a task in a shared environment. The other agent is only observed through the effect of its actions on the environment and never explicitly modeled. Two key aspects are borrowed from observational learning: i) the observer behaviour needs to change as a result of viewing a 'teacher' (another agent) and ii) the observer needs to be motivated somehow to engage in making use of the other agent's behaviour. The later is naturally modeled by RL, by correlating the learning agent's reward with the teacher agent's behaviour.

연구 동기 및 목표

  • 관찰 학습이 다른 에이전트의 모델링 없이 DeepRL 에이전트에서 자연스럽게 발생할 수 있는지 조사하기.
  • 메모리가 있는 순수 강화학습만으로도 에이전트가 공유 환경에서 교사의 행동을 관찰함으로써 학습할 수 있는지 판단하기.
  • 강화학습의 보상 신호만으로도 전문가 트랙토리 감독 없이도 모방이나 정보 탐색과 같은 복잡한 행동을 유도할 수 있는지 탐색하기.
  • 학습 후 에이전트가 독립적으로 작동할 수 있도록 하는 커리큘럼 전략 개발하기.
  • 교사와 학습자가 목표가 다를 경우나 교사의 성능이 최적화되지 않을 경우에도 이러한 관찰 학습이 얼마나 견고한지 평가하기.

제안 방법

  • 학습자(에이전트)는 시각 인식을 위한 컨볼루션 신경망과 기억을 위한 LSTM을 사용한 A3C 알고리즘을 사용하여 공유 환경의 관찰을 처리한다.
  • 학습자는 교사의 행동을 모방하거나 교사와 상호작용하는 데 대한 보상 없이, 작업을 완료하는 데만 보상을 받는다.
  • 교사는 환경에서 작동하는 전문가 에이전트로, 학습자의 존재를 인지하지 못하며 환경적 영향을 통해 행동 시연을 제공한다.
  • 관찰은 교사의 행동의 공간적 및 시간적 동적 특성을 인코딩하는 인식 헤드를 통해 처리된다.
  • 커리큘럼 학습 전략은 시간이 지남에 따라 교사의 존재를 점차 더 높은 확률로 마스킹하여, 에이전트가 관찰에 의존하는 것보다 내재된 지식에 더 의존하도록 유도한다.
  • 에이전트의 정책은 희박한 환경 보상 신호를 사용하여 엔드 투 엔드로 정책 기반 최적화 방법을 통해 훈련된다.

실험 결과

연구 질문

  • RQ1교사의 명시적 모델링이나 전문가 트랙토리에 접근할 수 없는 상황에서 DeepRL 에이전트에서 관찰 학습이 자연스럽게 발생할 수 있는가?
  • RQ2시각 인식, 기억, 강화학습의 조합만으로도 관찰을 통해 모방이나 정보 탐색 행동을 유도할 수 있는가?
  • RQ3교사가 존재하지 않는 새로운 환경에서 관찰 학습을 통해 훈련된 에이전트가 일반화할 수 있는가?
  • RQ4부분 관찰 환경에서 목표의 가시성과 교사의 존재 여부가 에이전트의 성능에 어떻게 영향을 미치는가?
  • RQ5커리큘럼 전략이 에이전트의 교사 의존도를 성공적으로 분리하면서도 작업 성능을 유지할 수 있는가?

주요 결과

  • 목표가 시야에 보일 경우, 교사가 존재할 때 학습자 에이전트의 성능은 완전 관찰 환경에서 단독으로 작동하는 에이전트와 유사하거나 略로 뛰어나, 교사 행동으로부터 효과적으로 정보를 추출한 것으로 나타났다.
  • 목표가 숨겨진 경우에도 학습자 에이전트는 맹목적인 정지 정책보다 유의미하게 향상되었으며, 이는 교사의 궤적을 통해 목표 위치를 추론할 수 있도록 학습했다는 것을 의미한다.
  • 학습자 에이전트의 최종 정책은 항상 교사를 향해 접근하고 따라다니며, 명시적인 보상 없이도 강력한 모방 및 정보 탐색 전략을 구현하고 있음을 보여주었다.
  • 교사의 존재를 점차 마스킹하는 커리큘럼 학습을 거친 후, 학습자 에이전트는 교사가 없는 9방실 환경에서도 작업을 성공적으로 해결하여 교사 행동의 내재화가 성공적으로 이루어졌음을 입증했다.
  • 훈련 후 학습자 에이전트는 새로운, 미리 보지 않은 환경으로 일반화되었으며, 이는 관찰된 행동이 환경에 종속되지 않고 이식 가능하다는 것을 의미한다.
  • 목표가 정합되지 않은 경우(예: 교사와 학습자가 서로 반대 방향으로 이동)에도 불구하고, 학습자 에이전트는 여전히 교사 행동을 활용하여 학습할 수 있었으며, 목표 정합성 문제에 대한 강건성을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.