[논문 리뷰] Learning Domain-Independent Planning Heuristics with Hypergraph Networks
이 논문은 삭제 허용 STRIPS 문제의 초그래프 표현을 기반으로 메시지 전파를 수행함으로써 도메인 독립적 계획 휴리스틱을 처음부터 학습하는 새로운 초그래프 신경망 프레임워크인 STRIPS-HGNs를 소개한다. 이 방법은 LM-cut과 같은 최신 휴리스틱과 경쟁 가능한 성능을 달성하며, 훈련 중에 볼 수 없었던 도메인, 예를 들어 Blocksworld와 같은 도메인에 대해서도 효과적으로 일반화된다.
We present the first approach capable of learning domain-independent planning heuristics entirely from scratch. The heuristics we learn map the hypergraph representation of the delete-relaxation of the planning problem at hand, to a cost estimate that approximates that of the least-cost path from the current state to the goal through the hypergraph. We generalise Graph Networks to obtain a new framework for learning over hypergraphs, which we specialise to learn planning heuristics by training over state/value pairs obtained from optimal cost plans. Our experiments show that the resulting architecture, STRIPS-HGNs, is capable of learning heuristics that are competitive with existing delete-relaxation heuristics including LM-cut. We show that the heuristics we learn are able to generalise across different problems and domains, including to domains that were not seen during training.
연구 동기 및 목표
- 기존의 수작업으로 만든 특징이나 기존의 휴리스틱 구성 요소에 의존하지 않고, 완전히 처음부터 계획 휴리스틱을 학습하는 방법을 개발하는 것.
- 다양한 문제 인스턴스, 즉 다른 수의 객체, 초기 상태, 목표 상태에 걸쳐 학습된 휴리스틱의 일반화를 가능하게 하는 것.
- 여러 도메인에서 훈련하고 볼 수 없는 도메인에서 평가함으로써 기존 도메인을 초월한 일반화를 확장하는 것.
- 크기와 구조가 변하는 초그래프에 대해 조합적 일반화를 수행할 수 있는 딥 러닝 아키텍처를 설계하는 것.
- 초그래프 기반 신경망이 기존의 도메인 특화 휴리스틱과 경쟁 가능한 효과적인 휴리스틱을 학습할 수 있음을 보여주는 것.
제안 방법
- 저자는 초그래프로 일반화된 그래프 네트워크인 초그래프 네트워크(HGNs)를 도입하여, 다수의 정점을 연결하는 초간선을 통해 메시지 전파를 가능하게 한다.
- STRIPS-HGNs는 삭제 허용 계획 문제의 초그래프 표현의 잠재 공간을 반복적으로 메시지 전파하는 데 사용하는 순환적 인코딩-처리-디코딩 아키텍처를 사용한다.
- 모델은 최적의 계획에서 유도된 상태/값 쌍을 기반으로 훈련되며, 초그래프의 구조를 정확한 휴리스틱 비용 추정치로 매핑하도록 학습한다.
- 초그래프 표현은 명제를 정점으로, 행동을 전제 조건에서 영향을 주는 효과로 연결하는 초간선으로 표현한다.
- 다른 수의 정점과 초간선을 가진 초그래프 간의 불변 표현을 학습함으로써 조합적 일반화를 지원한다.
- 기존의 모델들인 ASNets에서 흔히 볼 수 있는 고정된 수신 필드 제한을 피함으로써 장거리 추론이 가능하다.
실험 결과
연구 질문
- RQ1딥 러닝 모델이 존재하는 휴리스틱 구성 요소에 의존하지 않고 완전히 처음부터 도메인 독립적 계획 휴리스틱을 학습할 수 있는가?
- RQ2학습된 휴리스틱이 알려진 도메인 내에서 다양한 문제 크기, 초기 상태, 목표, 객체 집합에 걸쳐 일반화되는가?
- RQ3Gripper와 Zenotravel와 같은 다른 도메인에서만 훈련된 모델이 Blocksworld와 같이 전혀 볼 수 없는 도메인으로 일반화되는가?
- RQ4노드 전개 수와 계획 효율성 측면에서 $h^{max}$, $h^{add}$, LM-cut과 같은 기존 휴리스틱과 비교해 봤을 때 학습된 휴리스틱의 성능은 어떠한가?
- RQ5모델의 성능이 볼 수 없는 도메인에 적용되었을 때 얼마나 떨어지며, 여전히 탐색에 의미 있는 지침을 제공할 수 있는가?
주요 결과
- STRIPS-HGNs는 훈련 도메인에서 A* 알고리즘의 노드 전개 수 측면에서 $h^{max}$, $h^{add}$, LM-cut과 경쟁 가능한 휴리스틱을 학습한다.
- 학습된 휴리스틱 $h^{HGN}$은 알려진 도메인 내에서 객체 수와 목표 수가 다른 다양한 문제 인스턴스에 대해 효과적으로 일반화된다.
- Gripper와 Zenotravel에서 훈련된 $h^{HGN}$은 봐온 적 없는 도메인인 Blocksworld로 일반화되며, 노드 전개 수 측면에서 $h^{max}$와 블라인드 서치를 모두 능가한다.
- 볼 수 없는 도메인에 대해서는 Gripper에서는 타당한 휴리스틱과 유사하게 작동하고, Zenotravel에서는 $h^{max}$보다 나은 성능을 보이며, $h^{add}$와 LM-cut에는 미치지 못한다.
- $h^{HGN}$의 휴리스틱 추정치는 $h^{add}$만큼 최적 계획 길이에서 크게 벗어나지 않아 강력한 근사 품질을 나타낸다.
- 다소 유망한 결과에도 불구하고 현재의 구현은 높은 추론 비용(~0.01~0.02초/평가)을 유발하여 효율성 향상 여지가 있음을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.