Skip to main content
QUICK REVIEW

[논문 리뷰] Learning for Adaptive Real-time Search

Vadim Bulitko|ArXiv.org|2004. 07. 06.
Artificial Intelligence in Games참고 문헌 19인용 수 23
한 줄 요약

이 논문은 적응형 앞서보기 계획과 휴리스틱 함수 학습을 밀접하게 통합하는 새로운 실시간 탐색 알고리즘인 γ-Trap을 제안한다. 동적으로 앞서보기 깊이를 조정하고 앞서보기 정책에 맞게 최적화된 휴리스틱을 학습함으로써, γ-Trap은 슬라이딩 타일 퍼즐 실험에서 LRTA*, 가중 LRTA*, 유계 LRTA*, FALCONS 대비 수렴 속도 5~30배 향상, 메모리 사용량 감소, 해의 안정성 향상이라는 성과를 달성한다.

ABSTRACT

Real-time heuristic search is a popular model of acting and learning in intelligent autonomous agents. Learning real-time search agents improve their performance over time by acquiring and refining a value function guiding the application of their actions. As computing the perfect value function is typically intractable, a heuristic approximation is acquired instead. Most studies of learning in real-time search (and reinforcement learning) assume that a simple value-function-greedy policy is used to select actions. This is in contrast to practice, where high-performance is usually attained by interleaving planning and acting via a lookahead search of a non-trivial depth. In this paper, we take a step toward bridging this gap and propose a novel algorithm that (i) learns a heuristic function to be used specifically with a lookahead-based policy, (ii) selects the lookahead depth adaptively in each state, (iii) gives the user control over the trade-off between exploration and exploitation. We extensively evaluate the algorithm in the sliding tile puzzle testbed comparing it to the classical LRTA* and the more recent weighted LRTA*, bounded LRTA*, and FALCONS. Improvements of 5 to 30 folds in convergence speed are observed.

연구 동기 및 목표

  • 이론적 실시간 탐색과 깊은 앞서보기 계획을 활용하는 실용적 고성능 에이전트 사이의 격차를 해소한다.
  • 학습 기반 실시간 탐색 에이전트의 수렴 속도, 메모리 효율성, 해의 안정성을 향상시킨다.
  • 학습 중 탐색과 이용의 상호 균형을 사용자가 제어할 수 있도록 한다.
  • 앞서보기 기반 계획과 휴리스틱 학습을 통합하여 더 이성적이고 적응적인 의사결정 과정을 만든다.
  • 기존 LRTS 방법보다 성능과 수렴 행동 모두에서 뛰어난 안정적이고 효율적인 알고리즘을 개발한다.

제안 방법

  • 앞서보기 기반 의사결정 정책과 함께 사용하기 위해 특별히 최적화된 휴리스틱 함수를 학습하는 알고리즘인 γ-Trap을 제안한다.
  • 신뢰도 임계값에 따라 상태별로 동적으로 앞서보기 깊이를 조정하는 적응형 앞서보기 깊이 선택 기법을 적용한다.
  • 휴리스틱 추정치를 개선하고 수렴 안정성을 높이기 위해 백트래킹 메커니즘을 사용한다.
  • 탐색과 이용의 상호 균형을 제어할 수 있도록 파라미터 γ를 도입한다. 이는 속도와 해 품질 간 사용자 정의 균형을 가능하게 한다.
  • 앞서보기 결과를 통합하여 휴리스틱 추정치를 개선하는 수정된 값 갱신 규칙을 적용함으로써 계획 모듈과의 일致성을 확보한다.
  • 수렴과 안정성을 보장하기 위해 휴리스틱 값에 상한을 유지한다. 이는 유계 LRTA*와 유사하지만 성능 향상이 있다.

실험 결과

연구 질문

  • RQ1앞서보기 계획과 휴리스틱 학습을 통합함으로써 학습 기반 실시간 탐색 에이전트가 현저히 빠른 수렴 속도를 달성할 수 있는가?
  • RQ2고정 깊이 앞서보기 대비 적응형 앞서보기 깊이 선택이 수렴 속도와 안정성 향상에 기여하는가?
  • RQ3학습 기반 실시간 탐색 에이전트에서 탐색과 이용의 상호 균형을 효과적으로 제어할 수 있는가?
  • RQ4학습과 계획의 통합이 실시간 탐색에서 해 품질과 메모리 사용에 어떤 영향을 미치는가?
  • RQ5학습 알고리즘이 빠른 수렴과 안정된 성능을 동시에 달성할 수 있는가? 기존 방법에서 관찰되는 진동 현상을 피할 수 있는가?

주요 결과

  • 슬라이딩 타일 퍼즐 실험에서 γ-Trap은 LRTA*, 가중 LRTA*, 유계 LRTA*, FALCONS 대비 수렴 속도 5~30배 향상된다.
  • 백트래킹을 적용한 γ-Trap은 이전 방법 대비 SOD(해 진동) 지표를 약 5배 감소시키고, IAE(절대 오차 적분)를 14배 이상 감소시킨다.
  • 백트래킹 메커니즘이 γ-Trap의 뛰어난 학습 안정성과 수렴 속도의 주요 원인이다. 백트래킹 없이 구현한 gTrap은 가중 LRTA*와 유사한 성능을 보인다.
  • γ-Trap은 LRTA*와 유계 LRTA*보다 훨씬 낮은 메모리 요구량을 보이며, 수렴 보장을 유지한다.
  • 알고리즘은 매우 안정적인 수렴 행동을 보이며, 시험 간 해 비용의 진동이 최소화되어, 유계 LRTA*와 FALCONS조차도 안정성 지표에서 뒤지게 된다.
  • 첫 시도 성능은 가중 LRTA*보다 약간 열 劣하지만, 반복 시험에서의 수렴 속도와 안정성 향상 덕분에 이 상호 교환은 정당화된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.