QUICK REVIEW

[논문 리뷰] Information-Theoretic Bounded Rationality

Pedro A. Ortega, Daniel A. Braun|arXiv (Cornell University)|2015. 12. 21.

Computability, Logic, AI Algorithms참고 문헌 63인용 수 31

한 줄 요약

이 논문은 자원 제약 하에서의 의사결정을 자유 에너지 기능을 통해 모델링하는 정보이론적 프레임워크를 제안한다. 기대 utility와 정보 비용 간의 트레이드오프로 유용성 최적화를 다루며, 정책에 대한 효율적인 몬테카를로 샘플링을 가능하게 하여, 기대값 최대화 및 최소화와 같은 고전적 의사결정 규칙을 극한 경우로 일반화하고, 엔트로피 정규화를 통해 모델 불확실성을 포착한다.

ABSTRACT

Bounded rationality, that is, decision-making and planning under resource limitations, is widely regarded as an important open problem in artificial intelligence, reinforcement learning, computational neuroscience and economics. This paper offers a consolidated presentation of a theory of bounded rationality based on information-theoretic ideas. We provide a conceptual justification for using the free energy functional as the objective function for characterizing bounded-rational decisions. This functional possesses three crucial properties: it controls the size of the solution space; it has Monte Carlo planners that are exact, yet bypass the need for exhaustive search; and it captures model uncertainty arising from lack of evidence or from interacting with other agents having unknown intentions. We discuss the single-step decision-making case, and show how to extend it to sequential decisions using equivalence transformations. This extension yields a very general class of decision problems that encompass classical decision rules (e.g. EXPECTIMAX and MINIMAX) as limit cases, as well as trust- and risk-sensitive planning.

연구 동기 및 목표

유용성 최적화와 정보 처리 비용 간의 트레이드오프로 유한 합리성을 수학적으로 형식화하기.
계산 제약 조건 하에서 의사결정에 대한 원칙적인 정보이론적 기반 제공하기.
기대값 최대화 및 최소화와 같은 고전적 의사결정 규칙들을 하나의 프레임워크 안에서 통합하기.
포괄적 탐색을 피하는 정확한 몬테카를로 샘플링을 통해 실용적이고 확장 가능한 계획 수립 가능하게 하기.
엔트로피 정규화를 통해 순차적 의사결정에서 신뢰와 불확실성 모델링하기.

제안 방법

라그랑주 승수를 통해 기대 유용성과 정보 비용(엔트로피)을 결합한 자유 에너지 기능을 목적 함수로 사용한다.
변분 원리를 적용하여 유용성과 정보 비용 간의 최적 트레이드오프를 이루는 스토케스틱 정책을 유도한다.
자유 에너지 최소화에서 유도된 소프트맥스 유사 정책을 활용하여 거부 샘플링을 통한 효율적 샘플링을 가능하게 한다.
엔트로피 정규화를 통한 벨만 재귀를 활용해 단일 단계 의사결정을 순차적 의사결정으로 확장한다.
유한합리적 의사결정 트리를 표준 의사결정 트리로 변환하기 위해 등가 변환을 적용하고, 수정된 가치 함수를 사용한다.
재귀적 거부 샘플링을 통해 포괄적 탐색 없이도 최적의 유한합리적 정책으로부터 정확한 샘플을 생성한다.

실험 결과

연구 질문

RQ1자원 제약를 모델링하기 위해 정보이론적 원리를 사용해 유한 합리성을 어떻게 수학적으로 형식화할 수 있는가?
RQ2자유 에너지 기능은 정보 비용 파rameter가 0 또는 무한대에 수렴할 때, 최소화 및 기대값 최대화와 같은 고전적 의사결정 규칙을 어떻게 극한 경우로 통합하는가?
RQ3의사결정에서 엔트로피 정규화를 통해 모델 불확실성과 증거 부족을 자연스럽게 포착할 수 있는가?
RQ4유한 합리성 하에서 포괄적 탐색 없이도 정확하고 확장 가능한 계획을 어떻게 달성할 수 있는가?
RQ5자신의 예측 능력에 대한 신뢰와 타인의 의도에 대한 신뢰는 유한합리적 프레임워크에서 어떻게 유도되는가?

주요 결과

최적의 유한합리적 정책은 자유 에너지 기능 최소화에서 유도된 스토케스틱 선택 전략으로, 유용성과 정보 비용 간의 균형을 이룬다.
자유 에너지 기능은 거부 샘플링을 통한 정확한 몬테카를로 샘플링을 가능하게 하여 포괄적 탐색이 필요 없도록 한다.
정보 비용 파rameter가 0 또는 무한대에 수렴할 때, 최소화 및 기대값 최대화와 같은 고전적 의사결정 규칙이 극한 경우로 나타난다.
모델 불확실성은 엔트로피 정규화를 통해 자연스럽게 포착되며, 이는 유용성의 고차원 모멘트로의 가치 추정 편향을 유도한다.
정보 제약을 통합한 벨만 재귀를 통해 순차적 의사결정으로 일반화되어, 유한합리적 의사결정 트리가 도출된다.
정보 비용 파rameter를 조정함으로써 신뢰 민감성 및 리스크 민감성 계획을 통합하는 이론적 프레임워크를 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.