[논문 리뷰] Program-Based Strategy Induction for Reinforcement Learning
이 논문은 밴딧 태스크에서 해석 가능하고 프로그램으로 구조화된 강화 학습 전략을 발견하기 위해 베이지안 프로그램 유도를 사용하며, 이산적 휴리스틱과 시야 의존적 탐색을 드러낸다.
Typical models of learning assume incremental estimation of continuously-varying decision variables like expected rewards. However, this class of models fails to capture more idiosyncratic, discrete heuristics and strategies that people and animals appear to exhibit. Despite recent advances in strategy discovery using tools like recurrent networks that generalize the classic models, the resulting strategies are often onerous to interpret, making connections to cognition difficult to establish. We use Bayesian program induction to discover strategies implemented by programs, letting the simplicity of strategies trade off against their effectiveness. Focusing on bandit tasks, we find strategies that are difficult or unexpected with classical incremental learning, like asymmetric learning from rewarded and unrewarded trials, adaptive horizon-dependent random exploration, and discrete state switching.
연구 동기 및 목표
- 필요성: 지속적인 증가 학습을 넘어 인간/동물이 RL에서 사용하는 이산적이고 해석 가능한 전략의 식별 필요성을 제시한다.
- 제안: 간단하고 실행 가능한 전략을 발견하고 비교하기 위한 베이지안 프로그램 유도 프레임워크를 제시한다.
- 성과: 프레임워크가 알려진 휴리스틱(예: WSLS, 누적기)과 시야 adaptive 탐색에 부합하는 전략을 산출함을 보인다.
- 문제: 자원-합리성 거래로 간단성 및 효과성으로 행동을 설명할 수 있음을 보인다.
제안 방법
- 전략을 산술, 논리, 벡터 및 작업 특화 신호로 구성된 기본 연산 세트로 구축된 프로그램으로 형식화한다.
- 메모리 업데이트 함수 f와 정책 함수 g를 정의하여 기억과 이력으로부터 행동을 생성한다.
- 문법에 의한 프로그램 우선순위를 정의하고 작업 가치 V(π)에 기반한 가능도(likelihood)로 우선확률을 추정한다; Metropolis-Hastings를 이용한 MCMC로 포스트eriors를 추론한다.
- 두 부분 평가를 사용한다: 생성된 작업 모델 p(h_{t+1}|h_t)와 로그 p(Ω=1|π) ∝ β V(π)인 베르누이 최적성 지시자 Ω.
- 단순성(prior)과 성능(likelihood)의 trade-off 프론티어를 매핑하기 위해 광범위한 전략 공간을 탐색하고 Pareto 최적의 전략을 식별한다.
- 샘플링 이동(부분 트리 재생성, 기본 원소 재샘플링)을 구현하고 β 값들에 대해 다수의 체인을 실행하여 거래 프론티어를 맵핑한다.

실험 결과
연구 질문
- RQ1밴딧 태스크에서 고전적 증가 모델과 다르게 강화 학습 행동을 설명할 수 있는 이산적이고 실행 가능한 전략은 무엇인가?
- RQ2단순성 및 효과성의 균형을 맞출 때 간단한 프로그램 구조화 전략들은 서로 어떻게 성능이 다른가?
- RQ3자원-합리성 거래가 비대칭 학습, 시야 의존 탐색, 이산 상태 전환과 같은 현상을 설명할 수 있는가?
- RQ4해석 가능한 전략은 어떤 것이 나타나며(예: WSLS, 누적기, 시야 적응 탐색) 어떤 작업 조건에서 나타나는가?
- RQ5비정맥성(non-stationarity) 및 비마코프 패턴을 이산 의사결정 상태로 어떻게 다루는가?
주요 결과
| 기초 연산 | 설명 |
|---|---|
| Arithmetic, Logic | |
| 0, …, 49 | 0에서 49까지의 정수(포함) |
| + , * | 덧셈, 곱셈 |
| - , 1/(x) | 부정, 곱셈 역수 |
| < , == | 작다, 같다 |
| && , || , ! | 그리고, 또는, 부정 |
| if(c,x,y) | 조건 c가 참이면 x를 반환하고 그렇지 않으면 y를 반환 |
| Vectors | |
| vec_full(x) | 값 x로 채워진 벡터 |
| vec_n(x1, …, xn) | 앞의 n개의 항목이 주어지고 나머지는 0인 벡터, 예: vec_2(x,y)=[x,y,0,0] |
| v[i] | v의 i번째 원소를 반환 |
| assign(v,i,x) | v[i]=x로 업데이트된 v의 사본 |
| add_assign(v,i,x) | v[i]=v[i]+x로 업데이트된 v의 사본 |
| Inputs | |
| prev_action | 이전 행동, a_t |
| reward | 이전 보상, r_t |
| state | 이전 실험에서의 기억 m_t 또는 g의 경우 현재 실험의 기억 m_{t+1} |
| Action probabilities | |
| logit(l) | 두 선택 과제에서, l=log p(a=0)/p(a=1) |
| softmax(w,v) | v에 있는 비정규화 로그 확률에 w를 곱해 사용 |
| action(a) | 행동 a를 취함 |
| argmax(v) | v에서 가장 이른 최대 값의 행동을 취함 |
- _WSLS(이김-유지-패배-전환)와 같은 간단하고 해석 가능한 전략이 주로 정책 g를 통해 구현되었음_
- 보상 누적을 통해 선택에 편향을 주어 특정 시야에서 높은 성능을 발휘하는 누적기 스타일 전략이 발견되었음
- 시야에 따라 소프트맥스의 역온도(노드 온도)가 변화하는 시야 의존적 무작위 탐색을 밝힘
- 탐색과 이용을 전환하는 이산 의사결정 상태 전략(상태 기계)이 발견되어 WSLS 유사 및 더 복잡한 체제를 일치시킴
- 양의 정보에 대한 편향(보상 누적)은 제한된 전략 공간에서 최적일 수 있으며 비대칭 학습과 일치하는 관찰과 일치함
- 프레임워크가 prior의 단순성과 경험적 가치의 Pareto-frontier 전략을 산출해 신경 메타 학습에 대한 해석 가능한 대안을 제공함

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.