QUICK REVIEW

[논문 리뷰] Learning Domain-Independent Planning Heuristics with Hypergraph Networks

William Shen, Felipe Trevizan|arXiv (Cornell University)|2019. 11. 29.

AI-based Problem Solving and Planning참고 문헌 28인용 수 20

한 줄 요약

이 논문은 삭제 허용 STRIPS 문제의 초그래프 표현을 기반으로 메시지 전파를 수행함으로써 도메인 독립적 계획 휴리스틱을 처음부터 학습하는 새로운 초그래프 신경망 프레임워크인 STRIPS-HGNs를 소개한다. 이 방법은 LM-cut과 같은 최신 휴리스틱과 경쟁 가능한 성능을 달성하며, 훈련 중에 볼 수 없었던 도메인, 예를 들어 Blocksworld와 같은 도메인에 대해서도 효과적으로 일반화된다.

ABSTRACT

We present the first approach capable of learning domain-independent planning heuristics entirely from scratch. The heuristics we learn map the hypergraph representation of the delete-relaxation of the planning problem at hand, to a cost estimate that approximates that of the least-cost path from the current state to the goal through the hypergraph. We generalise Graph Networks to obtain a new framework for learning over hypergraphs, which we specialise to learn planning heuristics by training over state/value pairs obtained from optimal cost plans. Our experiments show that the resulting architecture, STRIPS-HGNs, is capable of learning heuristics that are competitive with existing delete-relaxation heuristics including LM-cut. We show that the heuristics we learn are able to generalise across different problems and domains, including to domains that were not seen during training.

연구 동기 및 목표

기존의 수작업으로 만든 특징이나 기존의 휴리스틱 구성 요소에 의존하지 않고, 완전히 처음부터 계획 휴리스틱을 학습하는 방법을 개발하는 것.
다양한 문제 인스턴스, 즉 다른 수의 객체, 초기 상태, 목표 상태에 걸쳐 학습된 휴리스틱의 일반화를 가능하게 하는 것.
여러 도메인에서 훈련하고 볼 수 없는 도메인에서 평가함으로써 기존 도메인을 초월한 일반화를 확장하는 것.
크기와 구조가 변하는 초그래프에 대해 조합적 일반화를 수행할 수 있는 딥 러닝 아키텍처를 설계하는 것.
초그래프 기반 신경망이 기존의 도메인 특화 휴리스틱과 경쟁 가능한 효과적인 휴리스틱을 학습할 수 있음을 보여주는 것.

제안 방법

저자는 초그래프로 일반화된 그래프 네트워크인 초그래프 네트워크(HGNs)를 도입하여, 다수의 정점을 연결하는 초간선을 통해 메시지 전파를 가능하게 한다.
STRIPS-HGNs는 삭제 허용 계획 문제의 초그래프 표현의 잠재 공간을 반복적으로 메시지 전파하는 데 사용하는 순환적 인코딩-처리-디코딩 아키텍처를 사용한다.
모델은 최적의 계획에서 유도된 상태/값 쌍을 기반으로 훈련되며, 초그래프의 구조를 정확한 휴리스틱 비용 추정치로 매핑하도록 학습한다.
초그래프 표현은 명제를 정점으로, 행동을 전제 조건에서 영향을 주는 효과로 연결하는 초간선으로 표현한다.
다른 수의 정점과 초간선을 가진 초그래프 간의 불변 표현을 학습함으로써 조합적 일반화를 지원한다.
기존의 모델들인 ASNets에서 흔히 볼 수 있는 고정된 수신 필드 제한을 피함으로써 장거리 추론이 가능하다.

실험 결과

연구 질문

RQ1딥 러닝 모델이 존재하는 휴리스틱 구성 요소에 의존하지 않고 완전히 처음부터 도메인 독립적 계획 휴리스틱을 학습할 수 있는가?
RQ2학습된 휴리스틱이 알려진 도메인 내에서 다양한 문제 크기, 초기 상태, 목표, 객체 집합에 걸쳐 일반화되는가?
RQ3Gripper와 Zenotravel와 같은 다른 도메인에서만 훈련된 모델이 Blocksworld와 같이 전혀 볼 수 없는 도메인으로 일반화되는가?
RQ4노드 전개 수와 계획 효율성 측면에서 $h^{max}$, $h^{add}$, LM-cut과 같은 기존 휴리스틱과 비교해 봤을 때 학습된 휴리스틱의 성능은 어떠한가?
RQ5모델의 성능이 볼 수 없는 도메인에 적용되었을 때 얼마나 떨어지며, 여전히 탐색에 의미 있는 지침을 제공할 수 있는가?

주요 결과

STRIPS-HGNs는 훈련 도메인에서 A* 알고리즘의 노드 전개 수 측면에서 $h^{max}$, $h^{add}$, LM-cut과 경쟁 가능한 휴리스틱을 학습한다.
학습된 휴리스틱 $h^{HGN}$은 알려진 도메인 내에서 객체 수와 목표 수가 다른 다양한 문제 인스턴스에 대해 효과적으로 일반화된다.
Gripper와 Zenotravel에서 훈련된 $h^{HGN}$은 봐온 적 없는 도메인인 Blocksworld로 일반화되며, 노드 전개 수 측면에서 $h^{max}$와 블라인드 서치를 모두 능가한다.
볼 수 없는 도메인에 대해서는 Gripper에서는 타당한 휴리스틱과 유사하게 작동하고, Zenotravel에서는 $h^{max}$보다 나은 성능을 보이며, $h^{add}$와 LM-cut에는 미치지 못한다.
$h^{HGN}$의 휴리스틱 추정치는 $h^{add}$만큼 최적 계획 길이에서 크게 벗어나지 않아 강력한 근사 품질을 나타낸다.
다소 유망한 결과에도 불구하고 현재의 구현은 높은 추론 비용(~0.01~0.02초/평가)을 유발하여 효율성 향상 여지가 있음을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.