Skip to main content
QUICK REVIEW

[논문 리뷰] Scaling Laws for Economic Productivity: Experimental Evidence in LLM-Assisted Translation

Ali merali|arXiv (Cornell University)|2024. 09. 04.
Italy: Economic History and Contemporary Issues인용 수 5
한 줄 요약

본 논문은 13개 모델에 걸친 300명의 전문 번역가를 대상으로 한 사전 등록된 RCT를 통해 LLM 학습 계산량과 번역 생산성, 품질, 수입 간의 경험적 규모의 법칙을 제시한다.

ABSTRACT

This paper derives "scaling laws"--empirical relationships between the training compute of Large Language Models (LLMs) and their performance--for economic outcomes. In a preregistered online experiment, 300 professional translators completed 1,800 tasks using one of 13 LLMs (or a control). A tenfold increase in model compute improved task completion speed by 12.3%, grades by 0.18 standard deviations, and earnings per minute by 16.1%. Gains were four times larger for lower-skilled workers. These findings suggest continued model scaling could boost U.S. productivity by at least 6.9% over the next decade.

연구 동기 및 목표

  • 프런티어 LLM 계산량이 노동자들의 경제적 결과로 어떻게 번역되는지 이해를 촉진한다.
  • 전문 작업에서 모델 계산 규모의 생산성, 품질 및 수입 효과를 정량화한다.
  • 번역가의 기술 수준에 따른 이익의 이질성을 검토한다.
  • AI의 규모 확산 및 기술 편향 임금 효과에 관한 문헌에 기여한다.

제안 방법

  • 300명의 전문 번역가를 대상으로 한 사전 등록 온라인 무작위 대조 실험을 수행한다.
  • 참여자를 서로 다른 학습 계산량을 가진 13개 LLM 중 하나를 사용하도록 배정하거나 AI 비개입 대조군으로 배정한다.
  • 참여자들이 각 약 10분 정도의 6개 번역 과제를 수행하도록 하며, 고강도 성과 인센티브를 제공한다.
  • 과제당 소요 시간, 세 명의 인간 전문가 채점자의 품질 등급, 보너스를 포함한 분당 수입을 측정한다.
  • 회귀 분석과 10x 계산 증가와 같은 효과를 사전 등록하고 모델 계산량에 따른 규모 효과를 분석한다.

실험 결과

연구 질문

  • RQ1더 높은 모델 학습 계산량이 번역 과제의 속도와 품질을 개선하는가?
  • RQ2모델 계산 규모의 확대가 분당 수입과 같은 경제적 결과로 어떻게 연결되는가?
  • RQ3계산량 확장의 생산성 이익이 번역가의 기본 기술에 따라 이질적인가?
  • RQ4다양한 언어에서 모델 계산 확대와 번역가 과제 품질 사이의 관계는 어떤가?

주요 결과

  • 모델 계산을 10x 증가시킬 때 과제 완료 속도가 12.3% 빨라진다(p=0.001).
  • 계산을 10x 증가시키면 품질 등급의 표준편차 0.18 증가(p=0.000).
  • 10x 계산당 분당 수입이 16.1% 증가(p=0.001).
  • GPT-jump에서 계산이 약 70배 증가하면 모델 점프당 시간은 22.7% 감소하고 분당 수입은 29.7% 증가한다.
  • 저숙련 번역가는 계산 확장의 이익을 훨씬 더 많이 얻는다(10x당 21.1%의 시간 감소) 반면 고숙련 번역가는 10x당 4.9%의 감소를 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.