QUICK REVIEW

[논문 리뷰] Learning Purposeful Behaviour in the Absence of Rewards

Marlos C. Machado, Michael Bowling|arXiv (Cornell University)|2016. 05. 25.

Reinforcement Learning in Robotics참고 문헌 19인용 수 24

한 줄 요약

이 논문은 외부 보상이 없는 환경에서 랜덤 탐색 중 관찰된 반복적인 상태 변화인 '에이전트목적(eigenpurposes)'을 식별함으로써 의도적이고 시간적으로 연속적인 행동(옵션)을 자동으로 발견하는 보상 없음 알고리즘을 제안한다. 이러한 목적을 내재된 보조 목표로 간주하고 학습된 보상 신호를 부여함으로써, 에이전트는 희박한 보상 환경에서 복잡하고 목표 지향적인 정책을 획득하게 되며, 이는 전역 관측 및 부분 관측 설정 모두에서 상태공간의 탐색 가능성을 크게 향상시킨다.

ABSTRACT

Artificial intelligence is commonly defined as the ability to achieve goals in the world. In the reinforcement learning framework, goals are encoded as reward functions that guide agent behaviour, and the sum of observed rewards provide a notion of progress. However, some domains have no such reward signal, or have a reward signal so sparse as to appear absent. Without reward feedback, agent behaviour is typically random, often dithering aimlessly and lacking intentionality. In this paper we present an algorithm capable of learning purposeful behaviour in the absence of rewards. The algorithm proceeds by constructing temporally extended actions (options), through the identification of purposes that are "just out of reach" of the agent's current behaviour. These purposes establish intrinsic goals for the agent to learn, ultimately resulting in a suite of behaviours that encourage the agent to visit different parts of the state space. Moreover, the approach is particularly suited for settings where rewards are very sparse, and such behaviours can help in the exploration of the environment until reward is observed.

연구 동기 및 목표

외부 보상 신호가 없거나 극도로 희박한 환경에서 지능형 에이전트를 훈련시키는 데 도전하는 데 목적을 두며
외부 보상에 의존하지 않고도 의도성과 구조화된 행동을 개발할 수 있도록 하는 데 목적을 두며
비구조화된 탐색에서 자동으로 유용한 시간적으로 연속적인 행동(옵션)을 탐지하는 데 목적을 두며
관찰 가능한 상태 변화를 기반으로 내재된 보조 목표를 생성함으로써 탐색 효율성을 향상시키는 데 목적을 두며
보상이 없는 부분 관측 환경에서도 효과적인 학습을 가능하게 하는 데 목적을 두며

제안 방법

알고리즘은 랜덤 에이전트 행동 중에 관찰 가능한 상태 특징의 반복적인 변화인 '에이전트목적(eigenpurposes)'을 식별한다.
각 에이전트목적은 내재된 보조 목표로 변환되며, 학습된 내재된 보상 함수를 갖는 새로운 옵션을 형성한다.
옵션은 랜덤 탐색에서 유도된 상태 전이를 분석함으로써 반복적으로 탐지되며, 확장성 확보를 위해 선형 함수 근사 기법을 사용한다.
모든 탐지된 옵션이 유한한 MDP에서 최소한 한 상태에서 종료되도록 보장함으로써 진전이 보장된다.
에이전트는 이러한 옵션을 사용하여 상태 공간을 더 넓게 탐색함으로써 이전에는 드물거나 도달 불가능했던 상태의 빈도를 높인다.
함수 근사와의 호환성 덕분에 이 방법은 아케이드 학습 환경과 같은 더 큰 도메인에 적용 가능하다.

실험 결과

연구 질문

RQ1외부 보상이 전혀 없는 환경에서 에이전트가 목적 지향적이고 목표 지향적인 행동을 학습할 수 있는가?
RQ2보상 신호 없이 비구조화된 탐색에서 내재된 보조 목표를 자동으로 탐지할 수 있는가?
RQ3상태 전이에서 유도된 에이전트목적이 효과적이고 시간적으로 연속적인 옵션을 이끌 수 있는가?
RQ4상태 정보가 제한된 부분 관측 환경에서 이 알고리즘이 어떻게 작동하는가?
RQ5랜덤 행동 선택 대비 탐지된 옵션이 탐색 효율을 크게 향상시킬 수 있는가?

주요 결과

전역 관측 조건에서, 에이전트의 시작 상태로부터의 최대 거리는 6회 반복 동안 29.3에서 298.9로 증가하여 탐색 가능성이 크게 향상됨을 보여줌.
옵션 평균 길이가 12.1에서 27.8로 증가하여 점점 더 복잡하고 목적 지향적인 행동이 형성됨을 나타냄.
부분 관측 조건에서는 상태 시각화가 제한되어 있어 '비트 뒤집기' 유형의 옵션은 여전히 탐지되었지만, 반복당 탐지 수가 줄어듦.
부분 관측 조건에서 시작 지점으로부터의 최대 거리는 352.4에 도달하여 제한된 정보 상황에서도 강건함을 입증함.
탐지된 옵션 수가 시간이 지남에 따라 증가함(전역 관측 조건에서 5.9에서 9.5로 증가), 새로운 목적을 지속적으로 탐색하고 있음을 시사함.
알고리즘은 모든 탐지된 옵션이 유한한 MDP에서 종료됨을 보장하여 안정적인 학습 동역학을 확보함.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.