QUICK REVIEW

[논문 리뷰] Learning to Share and Hide Intentions using Information Regularization

Daniel Strouse, Max Kleiman‐Weiner|arXiv (Cornell University)|2018. 08. 06.

Reinforcement Learning in Robotics인용 수 28

한 줄 요약

이 논문은 모델이나 다른 에이전트와의 상호작용 없이 비대칭 정보 게임에서 의도를 공유하거나 숨기는 데에 정보 이론적 정규화 방법을 제안한다. 정책 그래เดียน트 방법을 사용해 목표와 행동 또는 상태 간의 상호정보량을 최적화함으로써, 에이전트가 협력(의도를 드러냄) 또는 경쟁(의도를 숨김) 전략을 학습할 수 있도록 하는 것이며, 이는 키-도어 게임과 내비게이션 게임에서 협력 성능 향상 또는 경쟁 우위 확보를 통해 입증되었다.

ABSTRACT

Learning to cooperate with friends and compete with foes is a key component of multi-agent reinforcement learning. Typically to do so, one requires access to either a model of or interaction with the other agent(s). Here we show how to learn effective strategies for cooperation and competition in an asymmetric information game with no such model or interaction. Our approach is to encourage an agent to reveal or hide their intentions using an information-theoretic regularizer. We consider both the mutual information between goal and action given state, as well as the mutual information between goal and state. We show how to optimize these regularizers in a way that is easy to integrate with policy gradient reinforcement learning. Finally, we demonstrate that cooperative (competitive) policies learned with our approach lead to more (less) reward for a second agent in two simple asymmetric information games.

연구 동기 및 목표

모델이나 다른 에이전트와의 상호작용 없이 비대칭 정보 게임에서 에이전트가 협력적 또는 경쟁적 전략을 학습할 수 있는 방법을 개발하는 것.
보상 함수가 잘못 설정되어 있을 경우에도 행동이 해석 가능하고 인간의 기대와 일치하는 에이전트를 훈련하는 데 도전하는 것.
공동 작업에서 성능 향상을 위해 의도를 드러내거나 숨기는 방식으로 에이전트가 행동할 수 있도록 하는 것, 예를 들어 협력 또는 경쟁 작업에서의 성능 향상.
딥 강화학습 및 정책 그래디언트 방법과 호환되는 확장 가능하고 미분 가능한 프레임워크를 제공하는 것.

제안 방법

이 방법은 두 가지 정보 이론적 정규화 항을 도입한다: 상태가 주어졌을 때 목표와 행동 간의 상호정보량 ($I_{\text{action}}$), 그리고 목표와 상태 간의 상호정보량 ($I_{\text{state}}$).
이 정규화 항들은 목표 조건부 정책와 기본 정책 간의 KL 발산의 변분 근사법을 사용해 최적화되며, 정책 그래디언트를 통해 미분 가능한 훈련이 가능해진다.
훈련 목표는 에이전트의 보상과 정규화 항 $\beta I$의 합으로 구성되며, $\beta$는 보상 최적화와 정보 공개/은폐 간의 트레이드오프를 제어한다.
연속적인 행동이나 상태에 대해서는 함수 근사법과 KL 발산의 분석적 또는 확률적 근사법(예: 연속적 행동에 대한 가우시안 정책)을 사용한다.
이 방법은 표준 정책 그래디언트 프레임워크에 통합되어, 다른 에이전트의 모델링을 명시적으로 필요로 하지 않고도 엔드 투 엔드 훈련이 가능하다.
이 방법은 두 가지 환경에서 검증되었으며, 비대칭 목표 지식과 경로 제약 조건이 존재하는 공간 내비게이션 게임과 키-도어 게임을 포함한다.

실험 결과

연구 질문

RQ1직접 상호작용이나 다른 에이전트에 대한 모델이 없이도, 친구와 협력하기 위해 의도를 드러내는 데에 에이전트가 학습할 수 있는가?
RQ2다중 에이전트 환경에서 전략적으로 의도를 숨김으로써 상대를 속이거나 뛰어넘는 데에 에이전트가 학습할 수 있는가?
RQ3정보 이론적 정규화를 어떻게 사용하여 보상 최적화와 의도 공개 또는 은폐를 확장 가능하고 미분 가능한 방식으로 균형 잡을 수 있는가?
RQ4목표와 행동/상태 간의 정보 흐름을 제어할 경우, 협력적 및 경쟁적 설정에서의 후속 성능에 어떤 영향을 미치는가?

주요 결과

정보 공유를 장려하는 $\beta = 0.25$로 훈련했을 때, 키-도어 게임에서 앨리스의 정책는 항상 목표로 향하는 가장 짧은 경로를 선택하며, 목표에 특화된 열쇠만 획득하여 100%의 에피소드에서 백보드가 앨리스를 이기거나 비기게 되었다.
정보 은폐를 장려하는 $\beta = -0.25$로 훈련했을 때, 앨리스는 약 50%의 초기화에서 마스터 키를 통해 더 긴 경로를 선택하는 전략을 학습하여, 백보드의 성공률을 크게 감소시켰다.
키-도어 게임에서 앨리스가 마스터 키를 사용할 경우, 백보드의 승리/비기기 비율이 50% 미만으로 떨어졌으며, 이는 앨리스가 목표를 성공적으로 지연시켜 경쟁적 우위를 확보했다는 것을 보여준다.
공간 내비게이션 게임에서, 양성 정책은 양성 $\beta$로 훈련되어 더 높은 공동 보상을 달성했고, 음성 $\beta$로 훈련된 경쟁 정책은 두 번째 에이전트의 보상을 감소시켰다. 이는 방법이 의도 공개를 조절할 수 있음을 확인한다.
이 방법은 단기적 보상 포기 없이도 상호작용 환경에서 장기적인 전략적 우위를 확보할 수 있도록 에이전트를 학습시켰다.
함수 근사법과 변분 추론을 통해 연속적인 상태와 행동으로 일반화되었으며, 확장 가능성과 미분 가능성 유지되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.