QUICK REVIEW

[논문 리뷰] Online Bayesian Goal Inference for Boundedly-Rational Planning Agents

Tan Zhi‐Xuan, Jordyn L. Mann|arXiv (Cornell University)|2020. 06. 13.

AI-based Problem Solving and Planning참고 문헌 3인용 수 31

한 줄 요약

요약: 이 논문은 SIPS를 제시한다. SIPS는 순차 몬테 카를로 방법으로 최적 및 비최적 계획 모두에서 에이전트의 목표를 온라인으로 추론하며, 에이전트를 검색과 실행을 교차하는 경계적으로 합리적인 계획가로 모델링한다.

ABSTRACT

People routinely infer the goals of others by observing their actions over time. Remarkably, we can do so even when those actions lead to failure, enabling us to assist others when we detect that they might not achieve their goals. How might we endow machines with similar capabilities? Here we present an architecture capable of inferring an agent's goals online from both optimal and non-optimal sequences of actions. Our architecture models agents as boundedly-rational planners that interleave search with execution by replanning, thereby accounting for sub-optimal behavior. These models are specified as probabilistic programs, allowing us to represent and perform efficient Bayesian inference over an agent's goals and internal planning processes. To perform such inference, we develop Sequential Inverse Plan Search (SIPS), a sequential Monte Carlo algorithm that exploits the online replanning assumption of these models, limiting computation by incrementally extending inferred plans as new actions are observed. We present experiments showing that this modeling and inference architecture outperforms Bayesian inverse reinforcement learning baselines, accurately inferring goals from both optimal and non-optimal trajectories involving failure and back-tracking, while generalizing across domains with compositional structure and sparse rewards.

연구 동기 및 목표

하 인간이 하는 것처럼 비최적 또는 실패한 계획으로부터 목표를 추론할 필요성을 동기화한다.
상징적 환경과 상호 작용하는 경계적으로 합리적 계획 에이전트의 생성 모델을 제안한다.
계산을 제한하기 위해 재계획을 활용하는 온라인 SMC 알고리즘인 Sequential Inverse Plan Search(SIPS)를 개발한다.
다양한 도메인을 지원하기 위해 PDDL 기반 프레임워크에 목표, 상태 및 관찰을 내장한다.
다양한 도메인 및 인간 주체 벤치마크에 걸쳐 접근법을 베이지안 IRL 기준선과 비교 평가한다.

제안 방법

목표 우선순위, 계획 업데이트, 행동 선택, 상태 전이를 포함한 확률적 프로그램으로 에이전트를 모델링한다.
다양한 도메인과 희박한 보상을 처리하기 위해 목표와 상태를 PDDL로 표현한다.
음수 이항 분포에서 샘플링된 음수 이항 분포의 예측 예산으로 제한된 탐색으로 비최적 계획을 확률적 합리성으로 모델링한다.
관찰이 도착함에 따라 가설화된 계획을 확장하는 입자 기반 방법인 Sequential Inverse Plan Search(SIPS)로 온라인 추론을 수행한다.
가설 다양성을 유지하기 위해 재샘플링과 두 가지 회춘 커널(휴리스틱 주도 목표 제안 및 오류 주도 재계획 제안)을 사용한다.
계획 도메인 임베딩이 가능하도록 Gen에서 추론을 구현하고 온라인 부분计划 확장을 활용해 계산을 용이하게 한다.

실험 결과

연구 질문

RQ1온라인 베이지안 추론으로 비최적 또는 실패한 행동 시퀀스로부터 에이전트의 목표를 회복할 수 있는가?
RQ2제한된 탐색으로 재계획하는 경계적 합리성 모델링이 온라인 목표 추론 능력에 어떤 영향을 미치는가?
RQ3SIPS가 다양한 도메인에서 정확도와 속도 면에서 Bayesian IRL 기준선보다 우수한가?
RQ4모델 불일치 및 인간과 유사한 계획 행동에 대한 접근법의 강건성은 어떠한가?
RQ5구성적 구조와 희박한 보상을 가진 도메인에 프레임워크가 일반화될 수 있는가?

주요 결과

도메인	방법	P(g_true\|o) Q1	P(g_true\|o) Q2	P(g_true\|o) Q3	Top-1	C0 (s)	MC (s)	AC (s)	N
Taxi (3 Goals)	SIPS (ours)	0.44	0.50	0.62	0.53	0.56	0.67	13.0	1.80	2.55	1429
Taxi (3 Goals)	BIRL (unbiased)	0.34	0.35	0.79	0.33	0.42	0.92	2.22	0.00	0.16	10000
Taxi (3 Goals)	BIRL (oracle)	0.37	0.47	0.81	0.42	0.44	0.86	1.63	0.00	0.12	2500
Doors, Keys & Gems (3 Goals)	SIPS (ours)	0.37	0.51	0.61	0.74	0.74	0.74	3.30	0.70	0.86	2099
Doors, Keys & Gems (3 Goals)	BIRL (unbiased)	0.33	0.33	0.33	0.33	0.33	0.33	3326	0.12	154	250000
Doors, Keys & Gems (3 Goals)	BIRL (oracle)	0.37	0.36	0.42	0.44	0.60	0.80	150	0.12	7.01	10000
Block Words (5 Goals)	SIPS (ours)	0.47	0.83	0.90	0.78	0.84	0.91	20.8	2.46	4.15	2506
Block Words (5 Goals)	BIRL (unbiased)	0.20	0.20	0.21	0.42	0.49	0.56	687	0.27	63.6	250000
Block Words (5 Goals)	BIRL (oracle)	0.20	0.29	0.45	0.73	0.80	0.96	22.2	0.05	2.12	10000
Intrusion Detection (20 Goals)	SIPS (ours)	0.56	0.87	0.87	0.65	0.87	0.87	375	6.60	28.0	13321
Intrusion Detection (20 Goals)	BIRL (unbiased)	0.05	0.05	0.05	0.05	0.05	0.05	18038	0.75	1069	250000
Intrusion Detection (20 Goals)	BIRL (oracle)	0.09	0.24	0.53	0.94	1.00	1.00	98	0.02	6.00	10000

SIPS는 최적 경로뿐만 아니라 역주행과 실패를 포함한 비최적 경로에서도 목표를 정확하게 추론한다.
도메인 전반에 걸쳐 SIPS는 정확도와 속도 면에서 비편향적 Bayesian IRL보다 자주 우수하며, 때로는 기계 학습 기준선이나 오라클 IRL에 비견되거나 더 뛰어난 성능을 보이며 계산 비용이 크게 낮다.
SIPS는 여러 도메인에서 참 목표 사후 확률 P(g_true|o)의 추정치를 더 높게 산출한다.
시간에 따른 인간 추론 패턴은 BIRL 기준선보다 SIPS와 더 강하게 상관되며 인간과 유사한 추론을 시사한다.
SIPS는 데이터 생성 과정과 가정된 에이전트 모델 간의 중간 정도의 불일치에 대해서도 강인성을 보이며 인간 데이터에서도 효과적이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.