QUICK REVIEW

[논문 리뷰] The Termination Critic

Anna Harutyunyan, Will Dabney|arXiv (Cornell University)|2019. 02. 26.

Reinforcement Learning in Robotics인용 수 19

한 줄 요약

이 논문은 옵션의 종료 조건을 학습하기 위한 정보이론적 목적 함수를 제안하며, 보상 기반의 가치 최적화가 아니라 상태 인코딩의 압축 가능성으로서 종료 조건을 프레임워크화한다. 학습된 옵션 전이 모델을 '크리틱'으로 사용해 기울기를 계산함으로써, 이 방법은 옵션 붕괴를 방지하고, 비트리버스성 있고 계획 효율적인 옵션을 생성하며, 원시 액션과 A2OC의 고려 비용을 고려한 이전 방법보다 우수한 성능을 보인다.

ABSTRACT

In this work, we consider the problem of autonomously discovering behavioral abstractions, or options, for reinforcement learning agents. We propose an algorithm that focuses on the termination condition, as opposed to -- as is common -- the policy. The termination condition is usually trained to optimize a control objective: an option ought to terminate if another has better value. We offer a different, information-theoretic perspective, and propose that terminations should focus instead on the compressibility of the option's encoding -- arguably a key reason for using abstractions. To achieve this algorithmically, we leverage the classical options framework, and learn the option transition model as a "critic" for the termination condition. Using this model, we derive gradients that optimize the desired criteria. We show that the resulting options are non-trivial, intuitively meaningful, and useful for learning and planning.

연구 동기 및 목표

강화학습에서 유용한 행동 추상화(옵션)를 자동으로 발견하는 문제에 대응하기 위해.
옵션-크리틱과 같은 기존 방법에서 옵션이 단일 액션 원자로 분해되는 옵션 붕괴 문제를 해결하기 위해.
보상 기반의 종료 목적에서 옵션 인코딩의 정보이론적 압축 가능성으로 초점을 이동시키기 위해.
종료 조건이 더 나은 계획 효율성을 위해 소규모이고 의미 있는 상태 집합에 집중하도록 유도하는 학습 목적 함수를 개발하기 위해.
종료 조건 학습을 보상 최적화에서 분리하여, 종료 조건 품질의 독립적인 연구를 가능하게 하기 위해.

제안 방법

최소 기술 길이 원칙에 영감을 얻어, 옵션의 상태 궤적의 예측 가능성(압축 가능성)을 바탕으로 한 새로운 종료 목적 함수를 제안한다.
학습된 옵션 전이 모델을 '크리틱'으로 사용하여 고전적 옵션 프레임워크에서 종료 조건의 품질을 추정한다.
옵션 모델의 변화와 종료 조건의 변화 사이의 관계를 기반으로 한 종료 기울기 정리(termination gradient theorem)를 유도하여, 종료 조건에 대한 엔드 투 엔드 기울기 기반 최적화를 가능하게 한다.
유도된 기울기를 사용해 정책 기울기 방법을 통해 종료 조건을 학습하고, 정책는 표준 보상 목적 함수에 따라 학습한다.
모델 기반 크리틱을 사용해 종료 조건과 정책을 동시에 최적화하는 온라인 액터-크리틱 종료-크리틱(ActC) 알고리즘을 구현한다.
옵션 모델의 전이 역학의 엔트로피를 기반으로 한 손실 함수를 도입하여, 이를 최소화함으로써 예측 가능하고 압축 가능한 옵션 행동을 유도한다.

실험 결과

연구 질문

RQ1압축 가능성 기반의 종료 목적 함수가 옵션 붕괴를 방지하는 데 보상 기반 목적 함수보다 우수한가?
RQ2예측 가능성에 기반한 종료 조건 학습이 계획 및 학습에 더 유용한 옵션을 도출하는가?
RQ3모델 기반 크리틱이 보상 형태의 조정이나 초모수 민감도가 높은 트레이드오프에 의존하지 않고도 종료 조건 학습을 효과적으로 이끌 수 있는가?
RQ4옵션 궤적의 예측 가능성과 최종 계획 성능 사이에 상관관계가 있는가?
RQ5명시적 감독이나 보상 기반 종료 신호 없이도 비트리버스성이고 의미적으로 유의미한 옵션을 학습할 수 있는가?

주요 결과

제안된 ActC 알고리즘이 옵션 붕괴를 성공적으로 방지하여, 정책가 동일한 보상 목적 함수로 학습하더라도 비트리버스성 있는 옵션을 생성한다.
압축 가능성 목적 함수로 학습된 옵션은 가치 반복에서 더 빠른 수렴을 달성하며, 예측 가능성 목적 함수가 감소할수록 평균 정책 가치가 증가한다.
ActC는 고려 비용을 고려한 A2OC보다 계획 성능에서 뛰어나며, 더 결정적인 무작위 목표 옵션의 성능을 따라하거나 초월한다.
정보이론적 종료 목적 함수는 계획 효율성과 강하게 상관관계가 있으며, 이는 압축 가능성의 타당한 옵션 품질의 대체 척도임을 시사한다.
학습된 모델을 크리틱으로 사용함으로써 종료 조건에 대한 효과적인 기울기 계산이 가능해졌으며, 이는 이전 방법에서 흔히 발생하는 초모수 민감도 문제를 피할 수 있었다.
정성적 분석을 통해 학습된 옵션이 직관적이고 목표 중심적인 행동을 보이며, 종료를 위한 소규모 상태 집합에 집중함을 확인하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.