QUICK REVIEW

[論文レビュー] The Impact of AI on Developer Productivity: Evidence from GitHub Copilot

Sida Peng, Eirini Kalliamvakou|arXiv (Cornell University)|Feb 13, 2023

Software Engineering Research被引用数 242

ひとこと要約

乱数化比較試験は GitHub Copilot が JavaScript HTTP サーバタスクのタスク完了を 55.8% 加速することを示し、経験、作業負荷、年齢によって効果が異なる。

ABSTRACT

Generative AI tools hold promise to increase human productivity. This paper presents results from a controlled experiment with GitHub Copilot, an AI pair programmer. Recruited software developers were asked to implement an HTTP server in JavaScript as quickly as possible. The treatment group, with access to the AI pair programmer, completed the task 55.8% faster than the control group. Observed heterogenous effects show promise for AI pair programmers to help people transition into software development careers.

研究の動機と目的

AIペアプログラマー（GitHub Copilot）による専門ソフトウェア開発者の生産性への影響を測定する。
Copilot のタスク完了時間と成功に対する影響を分離するため、制御されたランダム化デザインを提供する。
経験、作業負荷、年齢、収入、教育、言語嗜好にわたる処置効果の異質性を探索する。
生産性研究、労働市場、将来のAI支援プログラミング研究への含意を論じる。

提案手法

Upwork を通じて募集した95名の専門プログラマーを対象としたランダム化対照試験。
処置群は GitHub Copilot へのアクセスと1分間の使用ブリーフィングを受けた。対照群は Copilot へのアクセスを持たなかった。
参加者は標準化されたタスクを完了した：GitHub Classroom を使用してタイミングと提出を行い、JavaScript で HTTP サーバを実装。
パフォーマンス指標：タスク成功率とタスク完了時間（リポジトリ作成から12 テストすべてに合格するまで）。
ヘテロジニアス効果は Horvitz–Thompson 変換と共変量による回帰で分析。
事前倫理承認と退出調査で知覚的な生産性向上と支払意思 proxy を捉える。

実験結果

リサーチクエスチョン

RQ1GitHub Copilot へのアクセスは標準化されたソフトウェア開発タスクの生産性を向上させるか。
RQ2時間短縮とタスク成功の観点で生産性向上はどの程度か、統計的に有意か。
RQ3経験、1日のコーディング時間、年齢、収入、教育、言語嗜好といった異質性要因は Copilot の有効性に影響を与えるか。

主な発見

推定値	標準誤差	t-統計量	p値
(Intercept)	78.01	67.84	1.15	0.2552
プログラミング経験（年）	8.23	4.36	1.90	0.0629
1日あたりのプログラミング時間	-11.70	4.74	-2.47	0.0168
年齢: 25-44	-74.55	33.52	-2.22	0.0303
失業中	-35.98	36.33	-0.99	0.3263
収入が $20,000 未満	0.64	27.47	0.02	0.9814
大学不在	-36.57	32.89	-1.11	0.2711
言語嗜好: Java	-11.77	33.16	-0.35	0.7240
言語嗜好: Python	22.90	42.19	0.54	0.5895

処置を受けた開発者は対照群よりタスクを 55.8% 速く完了した（95% CI: 21%–89%; p = 0.0017）。
タスク成功率は処置群で7パーセントポイント高かったが、統計的には有意ではなかった（95% CI: -11% から 25%）。
異質性分析では、経験の浅い開発者、日々のコーディング時間が多い人、年齢が25–44の人で生産性の向上が大きかった。
退出調査の自己評価による平均的な生産性向上は両群とも35%で、観測された55.8%の向上には及ばなかった。
対照群の参加者は1分間のデモの後、Copilot が substantial な速度向上を提供できると信じ、Copilot の潜在能力を認識していることを示唆した。
支払意志 proxy が処置群で高く（平均 $27.25）対照群（平均 $16.91）より大きく、Copilot ユーザーの方がより高い価値を認識していることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。