[論文レビュー] Learning to Generalize from Sparse and Underspecified Rewards
本論文は、メタ報酬学習(MeRL)とMAPOXを提案し、未規定で疎な報酬から学ぶ際の一般化を改善することを示す。弱教師付きの意味解析と指示遵守タスクで検証されている。
We consider the problem of learning from sparse and underspecified rewards, where an agent receives a complex input, such as a natural language instruction, and needs to generate a complex response, such as an action sequence, while only receiving binary success-failure feedback. Such success-failure rewards are often underspecified: they do not distinguish between purposeful and accidental success. Generalization from underspecified rewards hinges on discounting spurious trajectories that attain accidental success, while learning from sparse feedback requires effective exploration. We address exploration by using a mode covering direction of KL divergence to collect a diverse set of successful trajectories, followed by a mode seeking KL divergence to train a robust policy. We propose Meta Reward Learning (MeRL) to construct an auxiliary reward function that provides more refined feedback for learning. The parameters of the auxiliary reward function are optimized with respect to the validation performance of a trained policy. The MeRL approach outperforms our alternative reward learning technique based on Bayesian Optimization, and achieves the state-of-the-art on weakly-supervised semantic parsing. It improves previous work by 1.2% and 2.4% on WikiTableQuestions and WikiSQL datasets respectively.
研究の動機と目的
- 言語条件付きタスクにおける疎で未規定の成功/失敗報酬からの学習に対処する。
- モードカバーリングとモードシーキングのKL方向を用いて探索と堅牢なポリシー最適化を分離する。
- 検証性能によってパラメータが最適化される補助報酬関数(MeRL)を学習する。
- MeRLを、ベイズ最適化ベースの報酬学習(BoRL)およびベースライン手法と比較する。
- WikiTableQuestions、WikiSQL、および指示追従の迷路タスクでの一般化の改善を示す。
提案手法
- モードカバーリング探索(MAPOX)を用いて多様な成功軌跡を収集する。
- 発見された軌跡に対するモードシーキングKLダイバージェンスを含む堅牢な目的関数で方策を訓練する。
- 軌跡特徴に基づくパラメトリック補助報酬 R_phi を、未規定の報酬 R(a|x,y) と組み合わせて定義する。
- 検証性能を最大化するために、ポリシー更新を微分してMeRLによるメタ学習で phi を最適化する。
- 代替案: 微分不能な検証指標を最大化するためにBoRLで phi を最適化する。
- スパース報酬のメモリバッファと勾配推定を扱うためにMAPOベースの推定量を用いる。
実験結果
リサーチクエスチョン
- RQ1補助報酬学習は報酬が未規定な場合にどのように一般化を改善できるか?
- RQ2モードカバーリング探索戦略と堅牢なポリシー最適化を組み合わせた方法は、弱教師付きタスクにおいてモードシーキング法を上回るか?
- RQ3勾配ベース(MeRL)と勾配なし(BoRL)の報酬学習アプローチは、スパース報酬設定において検証性能を改善できるか?
- RQ4意味解析ベンチマークにおける学習済み補助報酬の一般化への影響は何か?
- RQ5探索重視の方法は、指示遵守と意味解析タスクにおいてどれくらいオラクル(完全監督)性能に近づくか?
主な発見
| 報酬構造 | Dev | Test |
|---|---|---|
| Underspecified | 73.0 (±3.4) | 69.8 (±2.5) |
| Underspecified + Auxiliary (BoRL) | 75.3 (±1.6) | 72.3 (±2.2) |
| Underspecified + Auxiliary (MeRL) | 83.0 (±3.6) | 74.5 (±2.5) |
| Oracle Reward | 95.7 (±1.3) | 92.6 (±1.0) |
- MeRLと BoRL は、基準の未規定報酬より一般化を改善する。
- MAPOX探索はMAPO単独より多様な成功軌跡を発見する。
- MeRLは指示追従タスクにおけるオラクル報酬とのギャップを大幅に縮める(Dev 83.0 vs 95.7; Test 74.5 vs 92.6)。
- 補助報酬は MeRL/BoRL で学習された方が、未規定の報酬のみより検証駆動性能が高い。
- MeRLを組み合わせたMAPOXは、弱教師付き意味解析ベンチマーク(WikiTableQuestions、WikiSQL)で最先端の成果を達成。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。