QUICK REVIEW

[논문 리뷰] What can I do here? A Theory of Affordances in Reinforcement Learning

Khimya Khetarpal, Zafarali Ahmed|arXiv (Cornell University)|2020. 06. 26.

Reinforcement Learning in Robotics인용 수 32

한 줄 요약

본 논문은 RL에 대한 affordance 이론을 도입하여 의도(intent)와 affordance를 정의하고, 이를 통해 행동 공간의 제약을 수행하며, 가치 및 계획 손실을 분석하고, affordance와 부분 모델의 학습이 일반화 및 계획 효율성을 향상시킨다는 점을 보여준다.

ABSTRACT

Reinforcement learning algorithms usually assume that all actions are always available to an agent. However, both people and animals understand the general link between the features of their environment and the actions that are feasible. Gibson (1977) coined the term "affordances" to describe the fact that certain states enable an agent to do certain actions, in the context of embodied agents. In this paper, we develop a theory of affordances for agents who learn and plan in Markov Decision Processes. Affordances play a dual role in this case. On one hand, they allow faster planning, by reducing the number of actions available in any given situation. On the other hand, they facilitate more efficient and precise learning of transition models from data, especially when such models require function approximation. We establish these properties through theoretical results as well as illustrative examples. We also propose an approach to learn affordances and use it to estimate transition models that are simpler and generalize better.

연구 동기 및 목표

Markov Decision Processes (MDPs)에서 의도 아래의 행동 가능성을 반영하기 위한 공식 정의를 도입한다.
의도에 따른 행동 공간 축소 없이도 가치에 큰 손실 없이 계획 속도를 높일 수 있는 affordances의 활용을 보인다.
affordance 기반 부분 모델 사용 시 가치 손실에 대한 이론적 하한을 제시한다(수학적 경계).
데이터로부터 affordances를 학습하고 이를 이용해 더 단순하고 일반화 가능한 전이 모델을 추정하는 방법을 제시한다.
계획 정확도 및 계산 효율성 향상을 위한 affordances의 실험적 이점을 демон스트레이션한다.

제안 방법

intent I_a를 상태에서 원하는 다음 상태 분포를 각 행동 a에 대해 매핑하는 것으로 정의한다.
affordances AF_I를 해당 행동에 대한 의도가 ε만큼 충족되는 상태-행동 쌍의 집합으로 정의한다.
의도와 함께 유도된 MDP M_I를 구성하고 이를 실제 MDP M과 비교하여 가치 손실의 경계(정리 1)를 도출한다.
affordance에 의해 제한된 affordable 상태-행동 쌍에 부분 모델 hat{M}_{AF_I}를 학습하고 계획 손실을 경계하는 계획(정리 2)을 도입한다.
정책 클래스 크기 분석 Pi_I를 통해 affordance 크기와 계획 편향-분산 트레이드오프를 연결한다.
A_theta 분류기를 이용해 affordances를 학습하고 의도 보완 함수 c를 사용해 전이 모델을 학습 및 마스킹하는 방법을 제안한다.
그리드 월드 및 연속 설정에서 계획 시간 감소와 일반화 향상을 보여주는 실험적 결과를 제시한다.

실험 결과

연구 질문

RQ1의도 아래의 실행 가능성을 포착하기 위해 MDP 프레임워크 내에서 affordances를 어떻게 형식화할 수 있는가?
RQ2affordance 기반 부분 모델을 사용하는 경우 전체 모델 대비 가치에 미치는 영향은 무엇인가?
RQ3affordance 집합의 크기가 계획 손실 및 편향-분산 트레이드오프에 어떤 영향을 미치는가?
RQ4데이터로부터 affordances를 학습하고 이를 통해 보이지 않는 상황에 일반화되는 부분 전이 모델을 학습할 수 있는가?
RQ5 affordances가 RL 과제에서 계획 속도와 안정성을 개선하는가?

주요 결과

원래의 MDP 최적 가치와 affordance 기반 정책 간의 가치 손실은 2 ε γ Rmax /(1- γ)^2 로 한정된다(정리 1).
affordances를 사용한 계획 손실은 데이터, ε, 정책 클래스 크기 |Pi_I|에 따라 높은 확률로 한정된다(정리 2).
작고 단순한 affordances는 가치 반복에서 계획 시간을 줄여주며, 특히 더 큰 격자나 더 복잡한 환경에서 효과적이다.
affordances 및 부분 모델 학습은 일반화 향상을 가져와 연속 설정에서도 분포 외(out-of-distribution) 예측이 개선된다.
작은 데이터에서 중간 정도의 affordance 크기가 편향-분산 트레이드오프를 달성할 수 있으며, 데이터가 증가함에 따라 더 큰 affordance가 유리해진다(섹션 6.3의 실험 결과).
affordance-aware 모델은 학습 중에 보지 못한 행동으로 일반화하고 장애물 근처의 잘못된 예측을 줄일 수 있다(그림 6).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.