[論文レビュー] Per-Domain Generalizing Policies: On Learning Efficient and Robust Q-Value Functions (Extended Version with Technical Appendix)
論文は、分野ごとに一般化する政策のためのQ値関数の学習を主張し、素のSLは教師アクションと非教師アクションを区別できないことを示し、この区別を強制する正則化項(明示的およびヒューリスティック)を導入して、正則化されたQ値方針が状態値方針より優れており、LAMA-firstと同等程度の性能を、10分野と複数のGNNアーキテクチャに対して示す。
Learning per-domain generalizing policies is a key challenge in learning for planning. Standard approaches learn state-value functions represented as graph neural networks using supervised learning on optimal plans generated by a teacher planner. In this work, we advocate for learning Q-value functions instead. Such policies are drastically cheaper to evaluate for a given state, as they need to process only the current state rather than every successor. Surprisingly, vanilla supervised learning of Q-values performs poorly as it does not learn to distinguish between the actions taken and those not taken by the teacher. We address this by using regularization terms that enforce this distinction, resulting in Q-value policies that consistently outperform state-value policies across a range of 10 domains and are competitive with the planner LAMA-first.
研究の動機と目的
- planningドメイン向けに分野ごとに一般化する方針を学習する動機付け。
- 効率のため状態値関数よりQ値関数の学習を推奨。
- vanillaな教師あり学習がQ値で失敗する理由を特定し、それを修正する正則化を導入。
- 複数のGNNアーキテクチャと分野を跨ぐスケーラビリティと汎化の利点を示す。
提案手法
- 古典的計画状態をグラフとして表現し、3つのGNNアーキテクチャ(R-GNN、OE、OAE)で処理。
- 最適プランを監督信号として用い、教師あり学習でQ値を学習。
- vanillaなSLでは教師アクションと非教師アクションのQ値が識別不能になることを示す。
- Q(s,a_i) > Q(s,a*) を強制する明示的正則化項とヒューリスティック正則化項の2系を導入。
- 10分野に渡り正規化されたQ値を状態値とLAMA-firstと比較する。
実験結果
リサーチクエスチョン
- RQ1 最適プランからQ値関数を学習して分野ごとの一般化された方針を得られるか。
- RQ2 vanillaな教師あり学習がQ値で失敗する理由は何か?正則化で修正できるか。
- RQ3 正則化されたQ値方針は分野間で状態値方針よりスケールと汎化性が高いか。
- RQ4 さまざまなGNNアーキテクチャは正則化されたQ値方針の性能にどう影響するか。
主な発見
- vanillaなSLで訓練されたQ値方針は、アクション間のQ値がほぼ同一でランダムな選択を生み、一般化が乏しい。
- 明示的またはヒューリスティックな正則化によって非教師アクションのQ値を教師アクションより高くすることができ、一般化を著しく改善する。
- 正則化されたQ値方針は10分野で状態値方針を上回り、IPC’23のテストセットではLAMA-firstと競合する。
- ヒューリスティック正則化はしばしばより厳密な境界を得て、複数分野で明示的正則化より優れることがある。
- 3つのGNNアーキテクチャ(R-GNN、OE、OAE)に渡り、正則化されたQ値方針は非正則化のベースラインよりスケーリング挙動が改善され、IPC’23テストでカバレッジが高い。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。