[論文レビュー] Contrastive Explanations for Reinforcement Learning in terms of Expected Consequences
tldr: 本論文は、学習されたポリシーとユーザー指定のフォイルとの対比的問合せを用いて、期待される結果を通じて行動を説明する方法を提案します。状態/行動をユーザーにとって分かりやすい概念へ翻訳し、パイロット的なユーザ研究でポリシーに焦点を当てた説明の方が好まれることを示します。
Machine Learning models become increasingly proficient in complex tasks. However, even for experts in the field, it can be difficult to understand what the model learned. This hampers trust and acceptance, and it obstructs the possibility to correct the model. There is therefore a need for transparency of machine learning models. The development of transparent classification models has received much attention, but there are few developments for achieving transparent Reinforcement Learning (RL) models. In this study we propose a method that enables a RL agent to explain its behavior in terms of the expected consequences of state transitions and outcomes. First, we define a translation of states and actions to a description that is easier to understand for human users. Second, we developed a procedure that enables the agent to obtain the consequences of a single action, as well as its entire policy. The method calculates contrasts between the consequences of a policy derived from a user query, and of the learned policy of the agent. Third, a format for generating explanations was constructed. A pilot survey study was conducted to explore preferences of users for different explanation properties. Results indicate that human users tend to favor explanations about policy rather than about single actions.
研究の動機と目的
- 透明な RL の説明の必要性を動機づけ、RL の XAI のギャップに対処する。
- 期待される状態遷移と結果を通じて RL の挙動を説明する方法を提案する。
- 低レベルの RL 特徴を説明のためのユーザーフレンドリーな概念へ翻訳する。
- 学習されたポリシーとフォイルポリシーを比較して対比的な説明を可能にする。
- パイロット研究を通じて説明タイプに対するユーザーの好みを評価する。
提案手法
- 状態を概念 C、行為を結果 O へ翻訳することで、k と t を用いて解釈可能なMDPを定義する。
- 遷移モデル T を用いて学習済みポリシー πt とフォイルポリシー πf の結果をシミュレートし、ポリシーレベルの説明を得る。
- ユーザー質問に基づく報酬 QI と学習済み Qt を組み合わせて Qf を形成し、πf を導出することでフォイルポリシーを構築する。
- シミュレーションを通じて QI を訓練し、問われた行動を有利にする報酬を設計し、距離ベースの重み w(s_i, s_t) を組み込む。
- 軌跡 γ(s_t, π) を k と t を用いて Path(s_t, π) という経路に翻訳し、簡潔な説明を提示する。
- 相対補集合と対称差分を用いて Path(s_t, πt) と Path(s_t, πf) を比較することで対比的な説明を生成する。
実験結果
リサーチクエスチョン
- RQ1RL のポリシーを raw な行動や報酬ではなく、期待される結果の観点から説明するにはどうすればよいか。
- RQ2学習済みポリシーとユーザー指定のフォイルを比較する対比的説明フレームワークは、人間の RL 行動理解を改善できるか。
- RQ3状態/行動を人間にとって理解しやすい概念へ翻訳する最適な方法は、説明の質をどのように支えるか。
- RQ4ポリシー全体の説明は、ユーザーにとって単一の行動の説明より好まれるか。
主な発見
- 方法は raw な状態-行動データではなく、ポリシーのシミュレーション結果に基づく説明を可能にする。
- パイロット研究の参加者は、単一の行動よりもポリシー(戦略)に関する説明を好んだ。
- 対比的説明フレームワークは、ユーザーのクエリに従いつつ学習済みポリシーに固定されたフォイルポリシーを構築することで生成できる。
- 本研究は、説明を人間が解釈できる概念へ翻訳する実現可能性を示した。
- 82 名の参加者を対象としたユーザー研究で、説明の長さ・情報レベル・行動対ポリシーの焦点といった特性の好みを検討した。
- 情報量が十分で、戦略/ポリシーに言及する説明が優先される傾向があった。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。