[논문 리뷰] Task-Aware Exploration via a Predictive Bisimulation Metric
TEB는 작업 관련 시각 표현을 학습하고 메트릭 기반의 내재 탐사 보너스를 생성하기 위한 예측적 비시뮬레이션 메트릭을 도입하여 시각적 강화학습에서 희박한 보상 하에서도 견고한 탐사를 가능하게 한다. 이는 표현 학습의 안정성을 높이고 MetaWorld와 Maze2D에서 정책 성능을 개선한다.
Accelerating exploration in visual reinforcement learning under sparse rewards remains challenging due to the substantial task-irrelevant variations. Despite advances in intrinsic exploration, many methods either assume access to low-dimensional states or lack task-aware exploration strategies, thereby rendering them fragile in visual domains. To bridge this gap, we present TEB, a Task-aware Exploration approach that tightly couples task-relevant representations with exploration through a predictive Bisimulation metric. Specifically, TEB leverages the metric not only to learn behaviorally grounded task representations but also to measure behaviorally intrinsic novelty over the learned latent space. To realize this, we first theoretically mitigate the representation collapse of degenerate bisimulation metrics under sparse rewards by internally introducing a simple but effective predicted reward differential. Building on this robust metric, we design potential-based exploration bonuses, which measure the relative novelty of adjacent observations over the latent space. Extensive experiments on MetaWorld and Maze2D show that TEB achieves superior exploration ability and outperforms recent baselines.
연구 동기 및 목표
- 표현 학습을 작업 의미론과 일치시켜 희박한 보상 하에서 시각적 RL의 견고한 탐색을 유도한다.
- 희박한 보상 환경에서도 유용한 정보를 유지하는 예측적이고 비퇴화(non-degenerate)한 비시뮬레이션 메트릭을 개발한다.
- 메트릭 기반 표현을 포텐셜 기반의 내재 탐사 보너스와 결합한다.
- 메트릭의 거동과 정책의 쉐이핑에 대한 불변성에 대한 이론적 보장을 제공한다.
제안 방법
- 희박한 보상에서 퇴화되는 것을 방지하기 위해 보상 차이를 Gaussian-예측 보상 차이로 대체하여 예측적 비시뮬레이션 연산자를 정의한다.
- 잠재 공간 위에 평균과 분산을 학습해 다중 스텝 보상을 맞추는 가우시안으로 보상 예측기를 모델링한다.
- 예측 비시뮬레이션 거리와 잠재 거리의 정렬을 맞추기 위해 부트스트랩된 비시뮬레이션 회귀 손실을 학습한다.
- 전역 앵커 상태를 사용하는 잠재 공간의 포텐셜 함수로 메트릭 기반의 내재 탐사 보너스를 구성한다.
- 메트릭 기반 포텐셜 쉐이핑에 대한 정책 불변성을 보이고 희박한 보상 하에서 비퇴화되지 않는 잠재 메트릭을 보장한다.

실험 결과
연구 질문
- RQ1희박한 보상 시나리오에서 예측적 비시뮬레이션 메트릭이 표현의 수축을 방지할 수 있는가?
- RQ2메트릭 기반의 내재 보상이 최적 정책을 바꾸지 않으면서 작업 의식을 갖춘 탐색을 어떻게 유도하는가?
- RQ3예측 비시뮬레이션에서 얻은 잠재 공간 거리와 가치 차이가 탐색을 효과적으로 안내하는가?
- RQ4비시뮬레이션 프레임워크에서 가우시안 보상 예측이 학습과 표현을 안정시키는가?
- RQ5제안된 구성 요소들이 MetaWorld 및 Maze2D와 같은 도전적 시각 과제에서 성능을 향상시키는가?
주요 결과
| 도메인 | 정사각-가 | 정사각-나 | 정사각-다 | 정사각-라 | Corridor2 | 정사각-나무 | 정사각-병목 |
|---|---|---|---|---|---|---|---|
| Disagreement | 0.38 ± 0.08 | 0.38 ± 0.20 | 0.39 ± 0.19 | 0.43 ± 0.14 | 0.48 ± 0.10 | 0.32 ± 0.10 | 0.34 ± 0.07 |
| ICM | 0.54 ± 0.08 | 0.57 ± 0.14 | 0.46 ± 0.06 | 0.59 ± 0.05 | 0.75 ± 0.07 | 0.41 ± 0.04 | 0.33 ± 0.06 |
| LBS | 0.30 ± 0.04 | 0.27 ± 0.05 | 0.25 ± 0.02 | 0.33 ± 0.03 | 0.44 ± 0.07 | 0.23 ± 0.04 | 0.21 ± 0.04 |
| Proto | 0.40 ± 0.04 | 0.40 ± 0.06 | 0.38 ± 0.09 | 0.48 ± 0.04 | 0.71 ± 0.04 | 0.24 ± 0.02 | 0.23 ± 0.01 |
| RND | 0.42 ± 0.10 | 0.60 ± 0.13 | 0.39 ± 0.12 | 0.37 ± 0.04 | 0.63 ± 0.10 | 0.28 ± 0.09 | 0.32 ± 0.09 |
| BeCL | 0.52 ± 0.05 | 0.48 ± 0.12 | 0.43 ± 0.09 | 0.47 ± 0.05 | 0.67 ± 0.13 | 0.37 ± 0.07 | 0.30 ± 0.05 |
| CeSD | 0.71 ± 0.05 | 0.66 ± 0.05 | 0.60 ± 0.05 | 0.57 ± 0.06 | 0.82 ± 0.06 | 0.40 ± 0.02 | 0.46 ± 0.05 |
| LSD | 0.42 ± 0.03 | 0.43 ± 0.06 | 0.37 ± 0.02 | 0.45 ± 0.03 | 0.56 ± 0.05 | 0.28 ± 0.02 | 0.35 ± 0.04 |
| DIAYN | 0.43 ± 0.05 | 0.48 ± 0.06 | 0.42 ± 0.04 | 0.47 ± 0.03 | 0.57 ± 0.06 | 0.37 ± 0.04 | 0.28 ± 0.04 |
| SMM | 0.42 ± 0.10 | 0.35 ± 0.14 | 0.32 ± 0.07 | 0.35 ± 0.02 | 0.84 ± 0.04 | 0.25 ± 0.02 | 0.34 ± 0.06 |
| TEB (Ours) | 0.87 ± 0.07 | 0.85 ± 0.07 | 0.74 ± 0.04 | 0.77 ± 0.04 | 0.93 ± 0.02 | 0.50 ± 0.04 | 0.47 ± 0.03 |
- TEB는 시각적 방해 요소와 희박한 보상이 있는 MetaWorld 과제에서 강력한 기준선보다 더 높은 성공률과 더 빠른 수렴을 달성한다.
- 보상 없는 Maze2D 실험에서 TEB는 미로 레이아웃 전반에 걸쳐 가장 높은 상태 커버리지를 달성하며 CeSD 및 다른 기준선보다 우수하다.
- ав
- a
- Ablations show both the predictive bisimulation representation and the intrinsic reward contribute non-trivially across tasks.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.