QUICK REVIEW

[論文レビュー] Scaling Laws for Economic Productivity: Experimental Evidence in LLM-Assisted Translation

Ali merali|arXiv (Cornell University)|Sep 4, 2024

Italy: Economic History and Contemporary Issues被引用数 5

ひとこと要約

本論文は、13モデルにわたる300名の専門翻訳者を対象とした事前登録済みのランダム化対照試験を通じて、LLMの訓練計算量と翻訳生産性・品質・所得を結ぶ経験的なスケーリング則を確立する。

ABSTRACT

This paper derives "scaling laws"--empirical relationships between the training compute of Large Language Models (LLMs) and their performance--for economic outcomes. In a preregistered online experiment, 300 professional translators completed 1,800 tasks using one of 13 LLMs (or a control). A tenfold increase in model compute improved task completion speed by 12.3%, grades by 0.18 standard deviations, and earnings per minute by 16.1%. Gains were four times larger for lower-skilled workers. These findings suggest continued model scaling could boost U.S. productivity by at least 6.9% over the next decade.

研究の動機と目的

最先端のLLM計算量が労働者の経済的成果にどのように結びつくかの理解を促す。
専門的タスクにおけるモデル計算量スケーリングの生産性・品質・所得影響を定量化する。
翻訳者のスキルレベル別の利益の異質性を検討する。
AIのスケーリング則と技能格差賃金効果に関する文献への貢献。

提案手法

オンラインの事前登録済みランダム化対照試験を300名の専門翻訳者で実施する。
参加者を、訓練計算量が異なる13のLLMのいずれかを使用する群、またはAIなしの対照群に割り当てる。
参加者には6つの翻訳タスクを、各約10分程度で実施させ、強力な報酬インセンティブを設定する。
タスクあたりの時間、3名の人間専門審査員による品質評価、ボーナスを含む分あたりの所得を測定する。
回帰分析と登録効果（例：10xの計算量の増分）を用いて、モデル計算量別のスケーリング効果を分析する。

実験結果

リサーチクエスチョン

RQ1より高いモデル訓練計算量のレベルは、翻訳タスクのスピードと品質を改善しますか？
RQ2モデル計算量のスケーリング則は、1分あたりの所得のような経済的成果にどのように翻訳されますか？
RQ3計算量スケーリングによる生産性の増分は、翻訳者の基礎スキルによって異なりますか？
RQ4異なる言語間で、モデル計算量のスケーリングと翻訳者のタスク品質の関係はどうなりますか？

主な発見

モデル計算量を10x増加させると、タスク完了が12.3%速くなる（p=0.001）。
計算量を10x増加させると、品質評価の標準偏差0.18の増加（p=0.000）。
計算量を10x増やすごとに、分あたりの所得が16.1%増加（p=0.001）。
計算量の約70xのGPTジャンプは、モデルジャンプあたりの時間を22.7%短縮し、分あたりの所得を29.7%増加させる。
低スキルの翻訳者は計算量スケーリングからの利益を高く得る（10xごとに時間が21.1%短縮）一方、高スキルの翻訳者は（10xごとに4.9%）にとどまる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。