[논문 리뷰] Action and Perception as Divergence Minimization
이 논문은 인식과 행동을 세계와 공유되는 표현력 있는 목표 분포 간의 Kullback-Leibler (KL) 발산 최소화의 공동 최소화로 공식화하는 통합 프레임워크—행동 및 인식의 발산 최소화(이하 APD)—를 제안한다. 잠재 변수를 활용함으로써 이 프레임워크는 표현력 있는 세계 모델을 갖춘 에이전트가 작업별 보상 없이도 자율적으로 탐색하고 적응할 수 있도록, 표현 학습, 정보 수익, 능력성, 스킬 탐색을 하나의 원리로 통합한다.
To learn directed behaviors in complex environments, intelligent agents need to optimize objective functions. Various objectives are known for designing artificial agents, including task rewards and intrinsic motivation. However, it is unclear how the known objectives relate to each other, which objectives remain yet to be discovered, and which objectives better describe the behavior of humans. We introduce the Action Perception Divergence (APD), an approach for categorizing the space of possible objective functions for embodied agents. We show a spectrum that reaches from narrow to general objectives. While the narrow objectives correspond to domain-specific rewards as typical in reinforcement learning, the general objectives maximize information with the environment through latent variable models of input sequences. Intuitively, these agents use perception to align their beliefs with the world and use actions to align the world with their beliefs. They infer representations that are informative of past inputs, explore future inputs that are informative of their representations, and select actions or skills that maximally influence future inputs. This explains a wide range of unsupervised objectives from a single principle, including representation learning, information gain, empowerment, and skill discovery. Our findings suggest leveraging powerful world models for unsupervised exploration as a path toward highly adaptive agents that seek out large niches in their environments, rendering task rewards optional.
연구 동기 및 목표
- 강화학습과 표현 학습의 다양한 목표를 단일 원리적인 프레임워크로 통합하기 위해.
- 내재 동기, 능력성, 정보 수익과 같은 기존 목표 간의 관계를 명확히 하기 위해.
- 표현력 있는 세계 모델이 지능형 에이전트 행동에 있어 작업 보상의 필요성을 없앨 수 있는지 탐색하기 위해.
- 발산 최소화에 기반한 새로운 에이전트 목표를 설계하는 일반적인 방법을 제공하기 위해.
- 심층 강화학습을 활동적 추론과 자유 에너지 원리와 연결하기 위해, 확장 가능하고 통합적인 공식을 제공하기 위해.
제안 방법
- 세계의 분포와 공유되는 목표 분포 사이의 KL 발산 최소화를 통합적으로 행동과 인식으로 공식화한다.
- 잠재 변수를 내부 상태로 표현하며, 과거 입력은 변분 추론과 연결하고, 미래 입력은 정보 수익과 연결한다.
- 공통 KL 발산 최소화의 결과로 잠재 변수와 입력 간의 상호정보량 최대화를 도출한다.
- 공통 KL의 분해를 통해 과거(표현 학습)와 미래(탐색) 항목을 분리한다.
- 단일 원리에서 기존 목표인 대비 학습, SLAC, 능력성 등을 유도한다.
- 표현력 있는 세계 모델이 목표로 작용하여, 내재적 탐색을 통해 큰 생태적 니치를 탐색하고 발견할 수 있음을 제안한다.
실험 결과
연구 질문
- RQ1지능형 에이전트의 인식과 행동을 단일 목표 함수로 통합할 수 있는 방법은 무엇인가?
- RQ2잠재 변수는 표현 학습과 미래 중심 탐색을 연결하는 데 어떤 역할을 하는가?
- RQ3능력성, 정보 수익, 대비 학습과 같은 다양한 목표들이 단일 원리에서 어떻게 유도되는가?
- RQ4표현력 있는 세계 모델이 작업별 보상 없이도 자율적으로 탐색하고 적응할 수 있는 에이전트를 가능하게 할 수 있는가?
- RQ5이 프레임워크는 활동적 추론과 자유 에너지 원리와 어떤 관계가 있는가?
주요 결과
- 공통 KL 최소화 프레임워크는 좁은 작업 보상에서부터 일반적인 내재적 목표에 이르기까지 광범위한 목표들을 통합한다.
- 표현력 있는 목표와의 발산 최소화는 잠재 변수와 감각 입력 간의 상호정보량 최대화를 이끈다.
- 과거 입력 항목은 변분 추론을 통한 표현 학습을, 미래 입력 항목은 정보 수익 기반 탐색을 가능하게 한다.
- 스토캐스틱 행동과 스킬은 미래의 상호정보량 최대화를 통해 일반화된 능력성과 스킬 탐색을 이끈다.
- 이 프레임워크는 기존 활동적 추론의 계산적 한계를 극복하는 확장 가능한 대안을 제공한다.
- 이 접근은 강력한 세계 모델이 작업 보상을 선택적으로 사용할 수 있게 하여, 에이전트가 자율적으로 풍부한 환경적 니치를 탐색하고 정착할 수 있음을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.