QUICK REVIEW

[논문 리뷰] Penalizing side effects using stepwise relative reachability

Victoria Krakovna, Laurent Orseau|arXiv (Cornell University)|2018. 06. 04.

Reinforcement Learning in Robotics참고 문헌 34인용 수 23

한 줄 요약

이 논문은 강화학습에서 부작용을 보상하는 데 있어 단계별 비행행동 기준과 상대적 도달 가능성 편차 측도를 조합함으로써, 간섭과 크기 민감도 부족과 같은 해로운 동기를 피하는 새로운 접근법을 제안한다. 이 방법은 인간의 감시나 작업 특화 보상 설계에 의존하지 않으며, 격자 세계 실험에서 기존 기준과 편차 측도보다 뛰어난 성능을 보이며 더 안전하고 강건한 에이전트 행동을 보여준다.

ABSTRACT

How can we design safe reinforcement learning agents that avoid unnecessary disruptions to their environment? We show that current approaches to penalizing side effects can introduce bad incentives, e.g. to prevent any irreversible changes in the environment, including the actions of other agents. To isolate the source of such undesirable incentives, we break down side effects penalties into two components: a baseline state and a measure of deviation from this baseline state. We argue that some of these incentives arise from the choice of baseline, and others arise from the choice of deviation measure. We introduce a new variant of the stepwise inaction baseline and a new deviation measure based on relative reachability of states. The combination of these design choices avoids the given undesirable incentives, while simpler baselines and the unreachability measure fail. We demonstrate this empirically by comparing different combinations of baseline and deviation measure choices on a set of gridworld experiments designed to illustrate possible bad incentives.

연구 동기 및 목표

강화학습에서 나쁜 부작용 보상으로 인해 발생하는 안전하지 않은 에이전트 행동을 해결하기 위해.
부작용 보상 설계의 결함으로 인해 발생하는 악성 동기—예를 들어 환경 변화나 다른 에이전트에 의한 영구적 변화를 방지하려는 시도, 영향의 크기 민감도 부족 등—를 식별하고 제거하기 위해.
이러한 동기를 함께 피할 수 있는 새로운 기준(단계별 비행행동 기준)과 편차 측도(상대적 도달 가능성)를 제안하기 위해.
통제된 격자 세계 환경에서 다양한 기준과 편차 측도 조합의 효과를 평가하기 위해.
복잡한 환경으로 일반화 가능한 스케일링 가능한 내재적 부작용 보상 방법의 기초를 마련하기 위해.

제안 방법

부작용 보상의 두 구성 요소로 분해: 기준 상태와 이 기준에서의 편차 측도.
이전 상태에서 행동을 취하지 않은 상태를 시간 t의 기준 상태로 삼는 단계별 비행행동 기준을 제안함. 초기 상태가 아니라 이전 상태를 기준으로 삼는다.
모든 상태가 현재 상태에서 기준 상태에 비해 도달 가능성의 평균 감소를 측정하는 상대적 도달 가능성 편차 측도를 도입.
도달 가능성은 R(s′; s) 함수를 사용해 측정하며, s′에서 s에 도달할 확률을 측정한다.
상대적 도달 가능성 편차를 정의하기 위해, 모든 상태 s에 대해 max(R(s′; s) − R(s; s), 0)의 평균을 계산하며, 이는 에이전트 행동으로 인한 도달 가능성 손실을 캡처한다.
간섭, 오프셋, 크기 민감도 부족을 테스트하기 위해 설계된 격자 세계 환경에서 기준과 편차 측도 조합의 실증적 평가 수행.

실험 결과

연구 질문

RQ1부작용 보상에서 고정된 초기 상태를 기준으로 사용할 경우 어떤 바람직하지 않은 동기가 발생하는가?
RQ2편차 측도 선택—미도달 가능성 대비 상대적 도달 가능성—에 따라 에이전트의 환경 변화의 영향 크기 민감도는 어떻게 영향을 받는가?
RQ3단계별 비행행동 기준은 자연적 또는 다른 에이전트에 의한 영구적 변화를 방지하려는 시도를 하는 에이전트의 간섭 동기를 제거할 수 있는가?
RQ4단계별 비행행동 기준과 상대적 도달 가능성 편차 측도의 조합은 간섭, 오프셋, 크기 민감도 부족이라는 세 가지 핵심 악성 동기를 모두 피할 수 있는가?
RQ5안전성과 강건성 측면에서, 상대적 도달 가능성 측도는 기존 방법들—미도달 가능성, 실현 가능한 유용성, 인간 감시—과 비교해 어떻게 성능을 내는가?

주요 결과

단계별 비행행동 기준은 간섭 동기를 성공적으로 제거한다. 이는 에이전트가 자연적 또는 다른 에이전트에 의한 영구적 변화를 방지하려는 행동을 하지 않도록 한다.
상대적 도달 가능성 편차 측도는 크기 민감도 부족을 피하며, 예를 들어 100개의 옷장 유리병을 부순 것보다 한 개를 부순 경우 더 강하게 보상한다.
단계별 비행행동 기준과 상대적 도달 가능성 편차 측도의 조합은 세 가지 핵심 악성 동기를 모두 피하는 데 있어 다른 모든 조합보다 뛰어난 성능을 보였다.
미도달 가능성 측도는 기준 선택에 관계없이 항상 크기 민감도 부족을 유도하므로, 영향의 크기가 중요한 실세계 적용에는 부적합하다.
제안된 방법은 오프셋 동기를 피하며, 기준 상태를 복원하기 위해 행동하는 에이전트가 오히려 최적 또는 의도된 행동이 아닌 경우에도 이를 방지한다.
격자 세계 실험 결과, 유일하게 세 가지 악성 동기를 모두 피하는 조합은 제안된 기준과 편차 측도의 조합 뿐이며, 이는 안전한 강화학습을 위한 필수 기초로 여겨진다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.