[논문 리뷰] Contrastive Explanations for Reinforcement Learning in terms of Expected Consequences
논문은 학습된 정책과 사용자가 지정한 호를 비교하는 대비적 질의를 사용하여 기대 결과를 통해 행동을 설명하는 RL 에이전트를 위한 방법을 제안합니다. 상태/행동을 사용자 친화적인 개념으로 변환하고 파일럿 사용자 연구를 통해 정책 중심의 설명이 선호된다는 것을 보여줍니다.
Machine Learning models become increasingly proficient in complex tasks. However, even for experts in the field, it can be difficult to understand what the model learned. This hampers trust and acceptance, and it obstructs the possibility to correct the model. There is therefore a need for transparency of machine learning models. The development of transparent classification models has received much attention, but there are few developments for achieving transparent Reinforcement Learning (RL) models. In this study we propose a method that enables a RL agent to explain its behavior in terms of the expected consequences of state transitions and outcomes. First, we define a translation of states and actions to a description that is easier to understand for human users. Second, we developed a procedure that enables the agent to obtain the consequences of a single action, as well as its entire policy. The method calculates contrasts between the consequences of a policy derived from a user query, and of the learned policy of the agent. Third, a format for generating explanations was constructed. A pilot survey study was conducted to explore preferences of users for different explanation properties. Results indicate that human users tend to favor explanations about policy rather than about single actions.
연구 동기 및 목표
- 투명한 RL 설명의 필요성을 제시하고 RL의 XAI 격차를 해결한다.
- 기대 상태 전이와 결과를 통해 RL 동작을 설명하는 방법을 제안한다.
- 설명을 위해 저수준 RL 특징을 사용자 친화적인 개념으로 번역한다.
- 학습된 정책과 호 정책을 비교하여 대비적 설명을 가능하게 한다.
- 파일럿 연구를 통해 설명 유형에 대한 사용자 선호를 평가한다.
제안 방법
- 상태를 개념 C로, 행동을 결과 O로 번역하여 k와 t를 통해 해석 가능한 MDP를 정의한다.
- 전이 모델 T을 사용하여 학습된 정책 πt와 호 정책 πf의 결과를 시뮬레이션하고 정책 수준의 설명을 얻는다.
- 사용자 질문 기반 보상 QI와 학습된 Qt를 결합하여 Qf를 형성하고 이를 통해 πf를 도출하여 foil 정책을 구성한다.
- 질의된 행동을 선호하도록 설계된 보상을 사용하여 시뮬레이션을 통해 QI를 학습하고, 거리 가중치 w(s_i, s_t)을 도입한다.
- 궤적 γ(s_t, π)을 k와 t를 사용해 간결한 설명을 제시하는 경로 Path(s_t, π)로 변환한다.
- 상대 여집합과 대칭 차이를 이용해 Path(s_t, πt)와 Path(s_t, πf)를 비교하여 대비적 설명을 생성한다.
실험 결과
연구 질문
- RQ1RL 정책을 단순한 행동이나 보상이 아닌 기대 결과 측면에서 어떻게 설명할 수 있는가?
- RQ2학습된 정책과 사용자가 지정한 호를 비교하는 대비적 설명 프레임워크가 RL 행동의 인간 이해를 향상시킬 수 있는가?
- RQ3설명을 가장 잘 지원하는 상태/행동의 인간 친화적 개념으로의 번역은 무엇인가?
- RQ4정책 수준의 설명이 사용자가 선호하는가, 단일 행동 설명보다?
주요 결과
- 이 방법은 원시 상태-행동 데이터가 아닌 정책의 시뮬레이션 결과를 기반으로 한 설명을 가능하게 한다.
- 파일럿 연구의 사용자들은 단일 행동보다 정책(전략)에 대한 설명을 선호했다.
- 사용자 질의에 따라 학습된 정책을 따르는 호 정책을 구성하고 그것을 학습 정책에 고정한 상태로 대비적 설명을 생성할 수 있다.
- 설명 속성의 길이, 정보 수준, 행동 대 정책 중심 여부를 조사한 82명 참여자의 사용자 연구가 진행되었다.
- 충분한 정보 제공과 전략/정책에 대한 다루기를 가진 설명이 선호되었다.
- 이 접근법은 RL 설명을 인간 친화적 개념으로 번역하는 실현 가능성을 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.