QUICK REVIEW

[논문 리뷰] Reinforced Genetic Algorithm Learning for Optimizing Computation Graphs

Aditya Paliwal, Felix Gimeno|arXiv (Cornell University)|2019. 05. 07.

Metaheuristic Optimization Algorithms Research참고 문헌 42인용 수 25

한 줄 요약

이 논문은 재훈련 없이도 실세계 텐서플로우 그래프에서 실행 시간과 최대 메모리 사용량을 최소화하는 데 있어 Biased Random-Key Genetic Algorithm(BRKGA)를 안내하기 위해 그래프 신경망을 학습시키는 강화학습 기반 유전 알고리즘인 REGAL을 제안한다. BRKGA에 대한 입력 기반 제안 분포를 학습함으로써 REGAL은 새로운 실세계 그래프에서 몇 초 만에 고품질의 해를 달성하며, 재훈련이 필요 없는 기존의 전통적 및 학습 기반 기준보다 뛰어난 성능을 발휘한다.

ABSTRACT

We present a deep reinforcement learning approach to minimizing the execution cost of neural network computation graphs in an optimizing compiler. Unlike earlier learning-based works that require training the optimizer on the same graph to be optimized, we propose a learning approach that trains an optimizer offline and then generalizes to previously unseen graphs without further training. This allows our approach to produce high-quality execution decisions on real-world TensorFlow graphs in seconds instead of hours. We consider two optimization tasks for computation graphs: minimizing running time and peak memory usage. In comparison to an extensive set of baselines, our approach achieves significant improvements over classical and other learning-based methods on these two tasks.

연구 동기 및 목표

재훈련 없이 다양한 실세계 모델에서 작동하는 빠르고 일반화 가능한 신경망 계산 그래프 최적화기 개발
정적 컴파일러에서 배치 및 스케줄링 결정을 동시에 최적화하여 실행 비용(실행 시간 또는 최대 메모리 사용량)을 최소화
기존의 학습 기반 최적화기의 한계를 극복하기 위해 각 그래프당 수 시간의 훈련이 필요하거나 새로운 아키텍처로의 일반화 능력이 떨어지는 문제 해결
대규모 그래프에서 몇 초 내에 고품질의 해를 달성하여 최적화 컴파일러의 생산 환경 구현 가능화

제안 방법

BRKGA의 돌연변이 생성 단계에서 각 노드의 비균일한 베타 분포 파라미터를 예측하기 위해 REINFORCE를 사용한 문맥 기반 밴딧 설정으로 그래프 신경망(GNN)을 훈련한다.
BRKGA 알고리즘은 균일한 기본값 대신 학습된 입력 의존적 제안 분포를 사용하여 더 높은 품질의 해로 향하는 탐색을 안내한다.
GNN은 계산 그래프의 구조, 노드 특징(예: 연산 유형, 텐서 크기), 엣지 종속성을 처리하여 배치 및 스케줄링에 대한 노드별 행동 확률을 산출한다.
정책은 명시적 지도 학습 없이 목적 함수 값(예: 실행 시간 또는 메모리 사용량)을 희박한 보상 신호로 사용하여 훈련된다.
후보 해의 실행 비용을 빠르게 평가하기 위해 훈련 중에 GNN의 피드백을 제공하는 조잡한 정적 비용 모델이 사용된다.
학습된 이동 가능한 결정 패턴을 통해 다양한 그래프 구조, 특히 실세계 텐서플로우 모델에 걸쳐 일반화된다.

실험 결과

연구 질문

RQ1재훈련 없이도 학습된 정책이 새로운 계산 그래프에서 더 나은 해를 찾을 수 있는가?
RQ2GNN 기반 정책 학습이 정적 컴파일러에서 동시 배치 및 스케줄링 최적화의 해 품질을 향상시키는가?
RQ3이 방법은 수 시간이 아닌 몇 초 내에 고품질의 결과를 도출할 수 있는가? 이는 실시간으로 생산 컴파일러에 적용 가능한가?
RQ4이 모델은 다양한 신경망 아키텍처와 워크로드에 대해 어떻게 일반화되는가?

주요 결과

REGAL은 실세계 텐서플로우 그래프에서 실행 시간과 최대 메모리 사용량을 모두 최소화하는 데 있어 기존의 전통적 및 학습 기반 기준보다 뚜렷한 개선을 보였다.
기존의 학습 기반 접근 방식(예: Mirhoseini et al., 2017, 2018)이 수 시간이 소요되는 데 비해, REGAL은 몇 초 내에 고품질의 해를 생성한다.
GNN 정책은 데이터 증강을 통해 생성된 새로운 그래프 구조에도 효과적으로 일반화되며, 다양한 아키텍처 간 성능 변동이 매우 낮다.
단순 히ュ리스틱을 초월해 데이터에 따라 변하는 전략—예를 들어 고메모리 노드에 낮은 스케줄링 우선순위를 할당하고 무거운 노드에 대해 장치 편향을 피하는 것—을 학습한다.
TF Runtime 테스트 세트에서 REGAL은 95%의 경우 BRKGA 기준보다 우수한 성능을 보였으며, 보상 값이 -1보다 큰 경우 더 나은 해를 의미한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.