Skip to main content
QUICK REVIEW

[논문 리뷰] Solving a New 3D Bin Packing Problem with Deep Reinforcement Learning Method

Haoyuan Hu, Xiaodong Zhang|arXiv (Cornell University)|2017. 08. 20.
Optimization and Packing Problems참고 문헌 6인용 수 100
한 줄 요약

새로운 3D 빈 포장 문제를 도입하여 빈의 표면적을 최소화하고 Pointer Network 기반 DRL 방법이 휴리스틱보다 약 5% 향상시키며 실제 데이터에서 beam search로 결과를 개선한다.

ABSTRACT

In this paper, a new type of 3D bin packing problem (BPP) is proposed, in which a number of cuboid-shaped items must be put into a bin one by one orthogonally. The objective is to find a way to place these items that can minimize the surface area of the bin. This problem is based on the fact that there is no fixed-sized bin in many real business scenarios and the cost of a bin is proportional to its surface area. Our research shows that this problem is NP-hard. Based on previous research on 3D BPP, the surface area is determined by the sequence, spatial locations and orientations of items. Among these factors, the sequence of items plays a key role in minimizing the surface area. Inspired by recent achievements of deep reinforcement learning (DRL) techniques, especially Pointer Network, on combinatorial optimization problems such as TSP, a DRL-based method is applied to optimize the sequence of items to be packed into the bin. Numerical results show that the method proposed in this paper achieve about 5% improvement than heuristic method.

연구 동기 및 목표

  • 실제 포장에서 빈 크기가 고정되지 않고 빈 비용이 표면적에 따라 확장되는 문제를 다루며 연구 동기를 제시한다.
  • 모든 아이템을 담을 수 있는 빈의 표면적 최소화를 중심으로 하는 새로운 NP-hard 3D BPP 변형을 정의한다.
  • Pointer Networks를 영감으로 한 DRL 기반 방법을 개발하여 포장 시퀀스를 최적화하고 휴리스틱과 비교한다.
  • 8, 10, 또는 12 아이템 주문에 대해 실데이터에서 경험적 이점을 입증한다.

제안 방법

  • 3D 직육면체의 중첩되지 않도록 경계 제약 하에서 빈 표면적을 최소화하는 문제로 형식화한다.
  • 구성적 DRL 접근법을 채택하여 포장 시퀀스를 최적화한다; 방향과 빈 공간 선택은 휴리스틱에 의해 안내된다.
  • Packing order를 출력하기 위해 Pointer Network (encoder–decoder with attention)를 사용한다.
  • 정책 그래디언트(REINFORCE)와 기준선 b(s)으로 학습하여 그래디언트 분산을 줄인다.
  • 기준선 초기화는 휴리스틱으로 생성된 포장 계획을 사용한다; 기억 재생(memory replay)을 통해 기준선을 정제한다.
  • 테스트 중에는 시퀀스 예측을 개선하기 위해 Beam Search (BS)로 탐색 적용.

실험 결과

연구 질문

  • RQ1Pointer Network 기반 DRL 방법이 고정되지 않은 빈의 표면적을 최소화하는 포장 시퀀스를 학습할 수 있는가?
  • RQ2DRL 기반 시퀀싱은 이 새로운 3D BPP 변형에 대해 잘 설계된 휴리스틱과 어떻게 비교되는가?
  • RQ3추론 시 Beam search가 무작위 샘플링이나 그리디 디코딩에 비해 의미 있는 향상을 제공하는가?
  • RQ4방향 및 여유 최대 공간 선택을 DRL 프레임워크에 얼마나 포함시키거나 개선할 수 있는가?

주요 결과

빈의 수RandomHeuristicRL SamplingRL BS
844.7043.9741.8241.82
1048.3847.3345.0345.02
1250.7849.3446.7146.71
  • DRL 기반 방법은 Bin8, Bin10, Bin12 전반에서 표면적 감소에 대해 휴리스틱 방법보다 약 5% 향상을 달성한다.
  • Beam search with size 3 yields improvements of 4.89%, 4.88%, and 5.33% over the heuristic baseline for Bin8, Bin10, and Bin12 respectively.
  • RL-based results with beam search are close to optimal for 5000 samples of Bin8 when compared to exhaustive optimal sequences.
  • The study confirms the new 3D BPP variant is NP-hard (paper provides NP-hardness proof).
  • The approach demonstrates that DRL can outperform carefully designed heuristics on a practical, real-data 3D packing task.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.