Skip to main content
QUICK REVIEW

[논문 리뷰] The Cost of Training NLP Models: A Concise Overview

Or Sharir, Barak Peleg|arXiv (Cornell University)|2020. 04. 19.
Topic Modeling참고 문헌 11인용 수 114
한 줄 요약

이 논문은 대형 NLP 모델의 학습 비용과 주도 요인을 조사하고, 증가하는 총 비용, 주요 비용 동인, 그리고 비용 절감을 위한 향후 방향을 제시합니다.

ABSTRACT

We review the cost of training large-scale language models, and the drivers of these costs. The intended audience includes engineers and scientists budgeting their model-training experiments, as well as non-practitioners trying to make sense of the economics of modern-day Natural Language Processing (NLP).

연구 동기 및 목표

  • 현재 및 예측되는 대형 NLP 모델 학습 비용을 평가한다.
  • 학습 비용을 주도하는 주요 요인(데이터, 모델 크기, 학습 볼륨)을 식별한다.
  • 실험을 위한 숨겨진 비용과 실제 예산 편성을 고려한 실무적 요소를 논의한다.
  • 향후 동향과 비용 절감 가능성에 대한 관점을 제시한다.

제안 방법

  • NLP 학습 비용에 관한 산업 및 학계 보고서를 검토하고 종합한다.
  • 다양한 매개변수 수에서 BERT-스케일 모델 학습의 대략적인 비용 범위를 제시한다.
  • 단일 학습 실행 외의 FLOPs 및 총 학습 지출에 영향을 주는 요인을 논의한다.
  • 비교를 통해 컴퓨터 비전과의 비용 역학 차이를 맥락화한다.

실험 결과

연구 질문

  • RQ1표준 말뭉치에서 다양한 규모(예: 110M, 340M, 1.5B 매개변수) NLP 모델을 학습하는 현재의 대략적 비용은 얼마인가?
  • RQ2데이터셋 크기, 모델 크기, 학습 볼륨 등 어떤 요인이 NLP 학습 비용을 주로 결정하는가?
  • RQ3하이퍼파라미터 튜닝 및 다중 실행과 같은 숨겨진 비용이 총 비용을 어떻게 늘리는가?
  • RQ4향후 어떤 동향이나 전략이 NLP 학습 비용의 증가를 억제할 수 있는가?

주요 결과

  • 학습 비용은 모델 크기에 따라 실행당 대략 $2.5k에서 $1.6m 사이로 변동될 수 있다(110M에서 1.5B 매개변수).
  • 대규모 프로젝트(예: 11B 매개변수 모델)는 실행당 $1.3백만을 넘길 수 있으며, 여러 번의 실행 및 더 작은 구성을 포함하면 총 프로젝트 비용이 약 $1000만에 이를 수 있다.
  • 모델/데이터 규모가 커지면 비용은 상승할 것으로 예측되나, 컴퓨트 가격 하락, 더 효율적인 아키텍처, SOTA 경쟁을 완화하는 요소, 더 크고 유용한 데이터, 구조화된 지식의 통합 등 여러 요인이 이러한 추세를 완화할 수 있다.
  • 랜덤성 관리 및 하이퍼파라미터 탐색을 위해 모델을 여러 번 학습시키는 등의 숨겨진 비용은 단일 학습 에피소드를 넘어 비용을 곱한다.
  • 컴퓨터 비전과의 차이점은 트랜스포머 기반 아키텍처와 대규모 텍스트 말뭉치에서의 자기지도 학습으로 인해 NLP의 비용이 더 높아지는 경향이 있음을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.