Skip to main content
QUICK REVIEW

[논문 리뷰] Faster Neural Network Training with Data Echoing

Dami Choi, Alexandre Passos|arXiv (Cornell University)|2019. 07. 12.
Neural Networks and Applications참고 문헌 24인용 수 33
한 줄 요약

논문은 데이터 에코잉(data echoing)을 도입합니다. 이는 업스트림 데이터 처리 단계의 출력을 재사용하여 아이들링 중인 가속기 용량을 회수하고, 업스트림 작업을 줄이며 학습 속도를 높이면서 최종 성능을 보존합니다. 네트워크를 통해 데이터를 읽을 때 ImageNet의 ResNet-50에서 벽시계 기준으로 3.25x의 속도 향상을 달성하는 등 주목할 만한 실측 속도향상을 달성합니다.

ABSTRACT

In the twilight of Moore's law, GPUs and other specialized hardware accelerators have dramatically sped up neural network training. However, earlier stages of the training pipeline, such as disk I/O and data preprocessing, do not run on accelerators. As accelerators continue to improve, these earlier stages will increasingly become the bottleneck. In this paper, we introduce "data echoing," which reduces the total computation used by earlier pipeline stages and speeds up training whenever computation upstream from accelerators dominates the training time. Data echoing reuses (or "echoes") intermediate outputs from earlier pipeline stages in order to reclaim idle capacity. We investigate the behavior of different data echoing algorithms on various workloads, for various amounts of echoing, and for various batch sizes. We find that in all settings, at least one data echoing algorithm can match the baseline's predictive performance using less upstream computation. We measured a factor of 3.25 decrease in wall-clock time for ResNet-50 on ImageNet when reading training data over a network.

연구 동기 및 목표

  • Accelerate하는 NN 학습에서 가속기가 병목이 되는 경우 업스트림 데이터 처리 계산의 감소를 목표로 한다.
  • 이전 파이프라인 단계의 데이터를 재사용해 아이들러 가속기 용량을 간단하고 저렴하게 회복하는 방법으로서 데이터 에코잉을 제안한다.
  • 다양한 작업 부하에 걸쳐 서로 다른 에코잉 전략이 학습 효율성과 예측 성능에 미치는 영향을 체계적으로 평가한다.

제안 방법

  • 병목 파이프라인 단계 뒤에 에코잉 단계를 삽입해 직전 단계의 출력을 재반복한다.
  • 에코잉 계수 e를 형식화하고 원-상류 플러스-다운스트림 단계의 시간을 max(t_upstream, e * t_downstream)로 도출한다.
  • 예시 에코잉과 배치 에코잉 변형을 비교하고 성능에 대한 셔플링 및 증강의 효과를 분석한다.
  • 정적 프레시 예제 예산 하에서 목표 외부 샘플 지표를 달성하기 위해 준난수 탐색을 통해 하이퍼파라미터를 조정한다.
  • 다양한 배치 크기로 변하는 Transformer(LM1B, Common Crawl), ResNet(CIFAR-10, ImageNet), SSD(COCO)에서 평가한다.

실험 결과

연구 질문

  • RQ1다양한 모델과 데이터셋에서 목표 외부 샘플 성능에 도달하는 데 필요한 신선한 학습 예제의 수를 데이터 에코잉이 줄일 수 있는가?
  • RQ2에코잉의 삽입 지점이 성능 및 필요한 업스트림/다운스트림 작업에 어떤 영향을 미치는가?
  • RQ3에코잉 계수, 배치 크기, 셔플링이 예측 성능 및 월타임에 어떤 영향을 미치는가?
  • RQ4데이터 에코잉이 잘 조정된 베이스라인과 비교해 최종 예측 성능을 유지하는가?
  • RQ5상류 중심의 파이프라인에서 데이터 에코잉이 제공할 수 있는 벽시계 속도향상은 어느 수준인가?

주요 결과

  • 데이터 에코잉은 ResNet-50의 배치 에코잉을 제외한 모든 경우에서 목표 외부 샘플 성능에 도달하는 데 필요한 신선한 예제 수를 줄인다.
  • 조기 삽입 지점(증강 이전)은 일반적으로 후기 지점보다 적은 신선한 예제를 요구한다.
  • 에코잉은 신선한 예제의 감소에 비례하는 벽시계 시간 단축을 가져올 수 있으며, 네트워크를 통해 데이터를 읽을 때 ResNet-50 on ImageNet에서 최대 3.25x의 속도 향상이 관찰된다.
  • 에코잉의 유용성은 에코잉 계수와 배치 크기에 의존한다; LM1B(1024배치)에서 최대 4–8까지 실현 가능하고 4096 배치에서 더 큰 수가 가능하나 임계치를 넘으면 수익이 감소한다.
  • 에코잉으로 더 많은 셔플링을 수행하면 예제 에코잉과 배치 에코잉 모두에서 성능이 향상된다.
  • 고정된 신선 데이터 예산 하에서 모든 에코잉 변형은 베이스라인과 비교해 동일하거나 더 나은 최종 외부 샘플 성능을 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.