QUICK REVIEW

[논문 리뷰] GDP: Generalized Device Placement for Dataflow Graphs

Yanqi Zhou, Sudip Roy|arXiv (Cornell University)|2019. 09. 28.

Ferroelectric and Negative Capacitance Devices참고 문헌 21인용 수 25

한 줄 요약

이 논문은 순차적 어휘와 초위치 기반 미세조정을 갖춘 확장 가능한 그래프 신경망을 사용하여 데이터플로우 그래프에 대한 일반화된 장치 배치 방법인 GDP를 제안한다. 인간 전문가 대비 16% 빠른 추론 성능과 이전 기술 대비 9.2% 향상된 성능을 달성하였으며, 수렴 속도는 15배 빠르고, 8층 GNMT와 같은 대규모 모델을 포함한 미리 보지 않은 그래프에 대해서도 강력한 일반화 성능을 보였다.

ABSTRACT

Runtime and scalability of large neural networks can be significantly affected by the placement of operations in their dataflow graphs on suitable devices. With increasingly complex neural network architectures and heterogeneous device characteristics, finding a reasonable placement is extremely challenging even for domain experts. Most existing automated device placement approaches are impractical due to the significant amount of compute required and their inability to generalize to new, previously held-out graphs. To address both limitations, we propose an efficient end-to-end method based on a scalable sequential attention mechanism over a graph neural network that is transferable to new graphs. On a diverse set of representative deep learning models, including Inception-v3, AmoebaNet, Transformer-XL, and WaveNet, our method on average achieves 16% improvement over human experts and 9.2% improvement over the prior art with 15 times faster convergence. To further reduce the computation cost, we pre-train the policy network on a set of dataflow graphs and use a superposition network to fine-tune it on each individual graph, achieving state-of-the-art performance on large hold-out graphs with over 50k nodes, such as an 8-layer GNMT.

연구 동기 및 목표

대규모이고 복잡한 신경망 아키텍처를 위한 이질적 하드웨어 환경에서 효율적이고 확장 가능한 장치 배치 문제를 해결한다.
모든 그래프에 대해 다시 학습이 필요한 이전 강화학습 기반 방법의 한계를 극복한다. 이는 일반화 능력이 부족하다는 점이다.
재학습 없이도 이전에 본 적 없는 데이터플로우 그래프에 일반화 가능한 이식 가능한 종단 간 장치 배치 정책을 가능하게 한다.
정책 탐색의 계산 비용을 줄이면서 다양한 워크로드에서 배치 품질을 유지하거나 향상시킨다.
최소한의 미세조정과 빠른 수렴 속도로 대규모 그래프(예: 50,000개 이상의 노드)에서 최신 기술 성능을 달성한다.

제안 방법

작업 특성과 의존성을 기반으로 학습 가능한 그래프 표현으로 변환하기 위해 그래프 임bedding 네트워크를 사용한다.
개선된 Transformer를 기반으로 한 확장 가능한 순차적-순차적 장치 배치 네트워크를 사용하여 노드 수준에서 장치 할당을 생성한다.
입력 그래프 임베딩에 조건을 부여하는 슈퍼포지션 네트워크를 도입하여, 크기가 매우 다른 그래프의 배치를 효과적으로 배치할 수 있도록 한다.
복잡한 다수준 손실 조정이 필요 없도록, 지도 학습 기반의 보상 신호를 사용하여 정책을 종단 간으로 학습시킨다.
사전 학습 및 미세조정 전략을 구현한다: 다양한 그래프에서 사전 학습하고, 슈퍼포지션을 사용하여 개별 그래프에서 미세조정하여 수렴 속도를 가속화한다.
주의 메커니즘을 통해 각 노드의 유연한 배치 결정을 학습함으로써, 명시적 계층적 그룹화나 공존 히ュ리스틱이 필요 없도록 한다.

실험 결과

연구 질문

RQ1딥 강화학습 기반 장치 배치 정책이 재학습 없이도 다양한 이전에 본 적 없는 데이터플로우 그래프에 일반화될 수 있는가?
RQ2그래프 신경망 내에서 확장 가능한 순차적 어휘 메커니즘이 계층적 또는 LSTM 기반 제어기 대비 배치 품질과 수렴 속도를 어떻게 향상시키는가?
RQ3크기가 매우 다른 그래프를 처리할 때 슈퍼포지션 기반 배치 훈련이 최적화 안정성과 성능 향상에 얼마나 기여하는가?
RQ4사전 학습된 그래프 임베딩과 정책이 8층 GNMT와 같은 대규모 보류 그래프에서 최소한의 미세조정으로도 높은 품질의 배치를 달성할 수 있는가?
RQ5제안된 방법이 인간 전문가와 HDP, Placeto와 같은 이전 최신 기술 대비 성능 및 효율성에서 어떻게 비교되는가?

주요 결과

GDP는 Inception-v3, AmoebaNet, WaveNet을 포함한 다양한 모델에서 인간 전문가 배치 대비 평균 16% 향상된 종단 간 스텝 시간을 달성한다.
이전 기술(HDP) 대비 스텝 시간에서 9.2% 향상되었으며, 이전 RL 기반 방법 대비 정책 탐색 시간은 15배 단축되었다.
보류된 그래프에 사전 학습된 모델을 미세조정한 경우(GDP-generalization+finetune)는 모든 6개의 테스트 그래프에서 인간 전문가와 HDP를 모두 초월했으며, 2층 RNNLM과 2스택 WaveNet은 GDP-one 성능에 맞먹었다.
사전 학습된 모델을 그대로 사용한 제로샷 추론(GDP-generalization-zeroshot)이 미세조정된 추론과 거의 유사한 성능을 보였으며, 그래프 임베딩과 정책의 강력한 이식 가능성을 입증했다.
제거 실험 결과, 주의 메커니즘이 실행 시간을 18% 향상시키고, 슈퍼포지션은 평균 6.5% 성능 향상을 이끌어내었으며, 혼합 크기의 그래프에서 안정적인 훈련을 위해 슈퍼포지션 기술이 필수적임을 확인했다.
사전 학습 후 미세조정을 통해 검색 시간은 86% 감소했고, 종단 간 실행 시간도 평균 5% 향상되었으며, 이는 사전 학습 및 미세조정 파이프라인의 효과성을 확인한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.