[論文レビュー] Grounding LTL Tasks in Sub-Symbolic RL Environments for Zero-Shot Generalization
論文は、生の観測から Neural Reward Machines を用いて多タスク方策とシンボル grounding を同時に学習する方法を提示し、サブシンボリック環境における未見の LTL タスクへのゼロショット一般化を可能にする。
In this work we address the problem of training a Reinforcement Learning agent to follow multiple temporally-extended instructions expressed in Linear Temporal Logic in sub-symbolic environments. Previous multi-task work has mostly relied on knowledge of the mapping between raw observations and symbols appearing in the formulae. We drop this unrealistic assumption by jointly training a multi-task policy and a symbol grounder with the same experience. The symbol grounder is trained only from raw observations and sparse rewards via Neural Reward Machines in a semi-supervised fashion. Experiments on vision-based environments show that our method achieves performance comparable to using the true symbol grounding and significantly outperforms state-of-the-art methods for sub-symbolic environments.
研究の動機と目的
- Linear Temporal Logic (LTL) で表現された複数の temporally-extended な指示を、真のシンボル grounding が利用できないサブシンボリック環境で追従するという課題を動機づけ、対処する。
- Neural Reward Machines (NRMs) を用いて、生の観測と sparse rewards からポリシーとシンボル grounding を同時に学習する共同学習フレームワークを提案する。
- ラベリング関数へのアクセスを前提とせず、 unseen なタスクへの転移性を保ちながら LTL2Action を拡張する。
提案手法
- ground truth から導出された progressed LTL 式に条件づけられた非マルコフな RL ポリシーを確立する問題設定として定式化する。
- 非マルコフ報酬とシンボル grounding を微分可能なオートマータフレームワークでモデル化することにより、シンボル grounding の間接的な監視を提供するために Neural Reward Machines を使用する。
- L_theta という grounding を観察からシンボル集合 P への分布へ写像するグランドナーと、 progressed された公式を特徴空間に埋め込む LTL モジュールを用意する;グランドナー/視覚特徴と LTL 特徴を連結して PPO ベースのポリシー学習を行う。
- 複数の NRMs(各トレーニングタスクごと)を、同じ grounding を共有してトレーニングし、予測報酬と観測報酬間のクロスエントロピーを最小化して grounding を時間微分を通じて更新する。
- 協調的に co-safe LTL 式を Moore Machine(出力が -1, 0, +1)へ翻訳して報酬を算出し NRM 学習を導く;LTL progression をオートマータ状態へ関連付けてタスク表現を順次更新する。

実験結果
リサーチクエスチョン
- RQ1 NRMs による間接監視で学習された単一のシンボル grounding が、サブシンボリック環境における unseen な LTL タスクへゼロショット一般化を支援できるか。
- RQ2 ポリシーと grounding をマルチタスク設定で共同学習することは、 grounding が既知であると仮定するベースラインよりも優れており、完璧な grounding を前提とした上限値にどれだけ近づくか。
- RQ3 Discrete(Minecraft 系)環境と Continuous(FlatWorld)環境への一般化、長く、より複雑なタスク式を含むか。
- RQ4 LTL モジュールを共同学習で学ぶことと固定化することの比較、タスク進行のエンコードが性能に与える影響。
- RQ5 grounding の精度とタスクタイプ(例:Global Avoidance vs Partially-Ordered)がゼロショット転送に与える制限。
主な発見
- 提案手法は、真のラベリング関数が既知である場合の上限値に近い性能を達成し、訓練と unseen の長い式にほとんど影響を及ぼさない。
- grounding の精度は通常 1 百万フレーム以内に収束し、高い水準を維持することが多い。特に negative rewards がより明確な信号を提供する Global Avoidance タスクで顕著。
- grounding を学ばないマルチタスク RL アプローチのベースラインより、本手法は Minecraft-like および FlatWorld 環境で大幅に上回る。
- unseen だが関連するタスク式へのゼロショット一般化は可能であり、 partially-ordered タスクでは known grounding での訓練と同程度と比較可能だが、いくつかの設定では Global Avoidance で失敗ケースが残る。
- 複数の NRMs を用いた学習は、共有 grounding が明示的なラベルなしでも正しいシンボル grounding を学習するのに役立つ間接的監視を提供する。
- 訓練初期は grounding 信号は不完全だが、複数の訓練タスクと進行情報の構造を活用することで改善する。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。