QUICK REVIEW

[논문 리뷰] Computational Theories of Curiosity-Driven Learning

Pierre‐Yves Oudeyer|arXiv (Cornell University)|2018. 02. 28.

Child and Animal Learning Development참고 문헌 67인용 수 32

한 줄 요약

이 논문은 예측 오차와 학습 진전과 같은 계산적 프레임워크를 통해 모델링된 탐구심 기반 학습이 보상이 희박하거나 속임수일 수 있는 환경에서 에이전트가 자율적으로 탐색하고 기술을 발견할 수 있도록 한다. 내재된 동기부여와 세계 모델 학습을 통합함으로써 이 접근법은 발달 로봇공학에서 효율적인 수명 주기 학습과 자율 조직화를 지원하며, 정보가 부족한 복잡한 환경에서도 뛰어난 내재성을 보인다.

ABSTRACT

What are the functions of curiosity? What are the mechanisms of curiosity-driven learning? We approach these questions about the living using concepts and tools from machine learning and developmental robotics. We argue that curiosity-driven learning enables organisms to make discoveries to solve complex problems with rare or deceptive rewards. By fostering exploration and discovery of a diversity of behavioural skills, and ignoring these rewards, curiosity can be efficient to bootstrap learning when there is no information, or deceptive information, about local improvement towards these problems. We also explain the key role of curiosity for efficient learning of world models. We review both normative and heuristic computational frameworks used to understand the mechanisms of curiosity in humans, conceptualizing the child as a sense-making organism. These frameworks enable us to discuss the bi-directional causal links between curiosity and learning, and to provide new hypotheses about the fundamental role of curiosity in self-organizing developmental structures through curriculum learning. We present various developmental robotics experiments that study these mechanisms in action, both supporting these hypotheses to understand better curiosity in humans and opening new research avenues in machine learning and artificial intelligence. Finally, we discuss challenges for the design of experimental paradigms for studying curiosity in psychology and cognitive neuroscience. Keywords: Curiosity, intrinsic motivation, lifelong learning, predictions, world model, rewards, free-energy principle, learning progress, machine learning, AI, developmental robotics, development, curriculum learning, self-organization.

연구 동기 및 목표

탐구심 기반 학습의 계산적 메커니즘을 이해하기 위해 발달 시스템에서 작용하는 원리를 규명한다.
내재된 동기부여가 보상이 희박하거나 속임수일 수 있는 환경에서 탐색을 어떻게 지원하는지 조사한다.
탐구심이 정확한 세계 모델을 구축하고 자율적 교육과정 학습을 가능하게 하는 데서 수행하는 역할을 검토한다.
발달 로봇공학의 통찰을 인간의 탐구심과 인지 발달 이론과 연결한다.
심리학 및 인지신경과학 분야의 실험적 프로토콜을 위한 검증 가능한 가설을 제안한다.

제안 방법

논문은 예측 오차와 학습 진전과 같은 정규화된 계산적 프레임워크를 활용하여 내재된 동기부여를 정량화한다.
자유 에너지 원리를 통합 이론으로 활용하여 탐구심을 변분 베이지안 추론으로 이해한다.
세계 모델 학습과 내재 보상 통합을 통해 탐색을 정보성 행동으로 이끌도록 한다.
발달 로봇공학 실험은 인공 에이전트가 어린이처럼 학습하는 것을 시뮬레이션하여 이러한 메커니즘을 통제된 환경에서 테스트한다.
학습 진전과 모델 향상 최적화를 통해 행동 우선순위를 정함으로써 교육과정 학습을 지원한다.
예측 코딩과 능동적 추론을 사용하여 에이전트가 환경에 대한 불확실성을 줄이는 행동을 선택하는 방식을 모델링한다.

실험 결과

연구 질문

RQ1내재된 동기부여가 보상이 희박하거나 속임수일 수 있는 환경에서 효율적인 탐색을 어떻게 이끌 수 있는가?
RQ2발달 학습 시스템에서 탐구심이 어떻게 기초가 되는 계산적 메커니즘이 형성되는가?
RQ3탐구심은 세계 모델 습득과 기술 다양성 확보에 어떻게 기여하는가?
RQ4탐구심은 외부 감독 없이 자율적이고 수명 주기적인 학습을 어떻게 가능하게 하는가?
RQ5탐구심의 계산적 모델은 인지과학 및 심리학 분야의 실험 설계에 어떻게 기여할 수 있는가?

주요 결과

탐구심 기반 학습은 외부 보상이 없거나 오해의 소지가 있을 경우에도 유용한 기술을 발견할 수 있도록 한다.
학습 진전을 내재 보상 신호로 사용하면 정보성 행동으로의 탐색을 효과적으로 이끌며 세계 모델 정확도를 향상시킨다.
예측 오차 기반 탐구심은 보상이 희박한 환경에서 무작위 또는 목표 중심 전략보다 더 효율적인 탐색을 이끈다.
탐구심과 세계 모델 학습의 통합은 자율적 교육과정을 통해 복잡하고 계층적인 기술의 출현을 지원한다.
탐구심의 계산적 모델은 어린이의 발달 궤적과 일치하며 생물학적 및 인공 시스템 간 공통된 메커니즘이 존재함을 시사한다.
이 프레임워크는 인지신경과학 및 심리학 분야에서 탐구심을 연구하기 위한 실험 프로토콜 설계의 기초를 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.