QUICK REVIEW

[論文レビュー] Program-Based Strategy Induction for Reinforcement Learning

Carlos G. Correa, Thomas L. Griffiths|arXiv (Cornell University)|Feb 26, 2024

Evolutionary Algorithms and Applications被引用数 5

ひとこと要約

本論文はベイズ型プログラム誘導を用いて、バンディット課題における解釈可能でプログラム構造化された強化学習戦略を発見し、離散的ヒューリスとホライズンを意識した探索を明らかにする。

ABSTRACT

Typical models of learning assume incremental estimation of continuously-varying decision variables like expected rewards. However, this class of models fails to capture more idiosyncratic, discrete heuristics and strategies that people and animals appear to exhibit. Despite recent advances in strategy discovery using tools like recurrent networks that generalize the classic models, the resulting strategies are often onerous to interpret, making connections to cognition difficult to establish. We use Bayesian program induction to discover strategies implemented by programs, letting the simplicity of strategies trade off against their effectiveness. Focusing on bandit tasks, we find strategies that are difficult or unexpected with classical incremental learning, like asymmetric learning from rewarded and unrewarded trials, adaptive horizon-dependent random exploration, and discrete state switching.

研究の動機と目的

RLにおいて連続的な段階的学習を超える、 humans/animals が用いる離散的で解釈可能な戦略を特定する必要性を動機づける。
単純で実行可能な戦略を発見・比較するためのベイズ型プログラム誘導フレームワークを提案する。
このフレームワークが既知のヒューリスティクス（例：WSLS、アキュムレータ）とホライズン適応的探索に一致する戦略を生成することを示す。
リソース合理的トレードオフの下で、戦略の単純さと有効性が行動を説明できることを実証する。

提案手法

戦略を算術・論理・ベクトル・タスク特有の信号から成る原始操作集合で構築されたプログラムとして形式化する。
メモリ更新関数 f とポリシー関数 g を定義し、これらがメモリと履歴から行動を生成する。
文法によるプログラムの事前分布を指定し、タスク値 V(π) に基づく尤度を持つ likelihood を定義する。MCMC（Metropolis-Hastings）で事後分布を推論する。
二部構成の評価を用いる：生成されたタスクモデル p(h_{t+1}|h_t) と、Ω のベルヌーイ最適性指標を用い、log p(Ω=1|π) ∝ β V(π) を用いる。
単純さ（事前分布）と性能（尤度）のトレードオフ frontier をマッピングするために、広範な戦略空間を探索し Pareto 最適戦略を識別する。
サンプリング動作（木構造の再生成、原始の再サンプリング）を実装し、β 値ごとに複数のチェーンを走らせてトレードオフ frontier を描く。

実験結果

リサーチクエスチョン

RQ1クラシカルな增分的モデルと異なる、バンディット課題における離散的かつ実行可能な戦略はどのように説明できるか？
RQ2単純なプログラム構造戦略は、単純さと効果のバランスにおいて互いにどのように性能の差が出るか？
RQ3リソース合理的トレードオフは非対称学習、ホライズン依存探索、離散状態切替といった観測現象を説明できるか？
RQ4どのような解釈可能な戦略が emerge するか（例：WSLS、アキュムレータ、ホライズン適応的探索）と、どのようなタスク条件下で？
RQ5離散的意思決定状態を介して非定常性・非マルコフ的パターンはどのように扱われるか？

主な発見

Primitives	Description
Arithmetic, Logic
0, …, 49	Integers from 0 to 49 (inclusive)
+ , *	Addition, multiplication
- , 1/(x)	Negation, multiplicative inverse
< , ==	Less than, equals
&& , \|\| , !	And, or, negation
if(c,x,y)	Returns x if condition c is true, y otherwise
Vectors
vec_full(x)	A vector filled with the value x
vec_n(x1, …, xn)	A vector where the first n entries are supplied and others are 0, e.g., vec_2(x,y)=[x,y,0,0]
v[i]	Returns ith entry of v
assign(v,i,x)	Updated copy of v , with v[i]=x
add_assign(v,i,x)	Updated copy of v , with v[i]=v[i]+x
Inputs
prev_action	Previous action, a_t
reward	Previous reward, r_t
state	Memory from previous trial m_t for f or current trial m_{t+1} for g
Action probabilities
logit(l)	For two-action tasks, l=log p(a=0)/p(a=1)
softmax(w,v)	Uses unnormalized log probabilities in v , scaled by w
action(a)	Takes action a
argmax(v)	Takes action with earliest, maximum value in v

勝ち続けて失敗を移す（WSLS）など、主に policy g を通じて実装された単純で解釈可能な戦略を同定した。
報酬を順次統合して選択を偏らせるアキュムレータ風の戦略を見出し、特定のホライズンで高い性能を示した。
ホライズン依存的なランダム探索を明らかにし、ソフトマックスの逆温度がホライズンとメモリ蓄積に応じて変化する。
探索と搾取の切り替えを行う離散的意思決定状態戦略（状態機械）を発見し、WSLS様式およびより複雑なレジームに一致した。
正の情報（報酬蓄積）に偏るバイアスが、限られた戦略空間では最適となり、非対称な学習観察と一致する。
フレームワークが事前の単純さと経験的価値の平衡を持つパレート-frontier 戦略を生み出し、ニューラルメタ学習に対する解釈可能な代替案を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。