QUICK REVIEW
[论文解读] The Impact of AI on Developer Productivity: Evidence from GitHub Copilot
Sida Peng, Eirini Kalliamvakou|arXiv (Cornell University)|Feb 13, 2023
Software Engineering Research被引用 242
一句话总结
一项随机对照试验显示 GitHub Copilot 将 JavaScript HTTP 服务器任务的完成速度提升 55.8%,但对经验、工作负载和年龄存在异质性效应。
ABSTRACT
Generative AI tools hold promise to increase human productivity. This paper presents results from a controlled experiment with GitHub Copilot, an AI pair programmer. Recruited software developers were asked to implement an HTTP server in JavaScript as quickly as possible. The treatment group, with access to the AI pair programmer, completed the task 55.8% faster than the control group. Observed heterogenous effects show promise for AI pair programmers to help people transition into software development careers.
研究动机与目标
- 衡量 AI 结对程序员(GitHub Copilot)对专业软件开发人员的生产力影响。
- 提供一个受控、随机化设计,以隔离 Copilot 对任务完成时间和成功率的影响。
- 探索经验、工作量、年龄、收入、教育水平和语言偏好等因素对处理效应的异质性。
- 讨论对生产力研究、劳动力市场及未来 AI 辅助编程研究的影响。
提出的方法
- 通过 Upwork 招募的 95 名专业程序员的随机对照试验。
- 处理组可使用 GitHub Copilot,并进行 1 分钟的使用简报;对照组未获得 Copilot 访问权限。
- 参与者完成一个标准化任务:使用 GitHub Classroom 实现 JavaScript 的 HTTP 服务器,以进行计时和提交。
- 性能指标:任务成功率和任务完成时间(从仓库创建到通过全部 12 个测试)。
- 通过 Horvitz–Thompson 转换和协变量回归分析异质性效应。
- 事前伦理审批和退出调查,以获取感知生产力增益和愿意支付代理变量。
实验结果
研究问题
- RQ1获取 GitHub Copilot 访问权限是否会提高在标准化软件开发任务中的生产力?
- RQ2在节省时间和任务成功方面,生产力增益有多大,是否具有统计显著性?
- RQ3异质性因素(经验、每日编码量、年龄、收入、教育程度、语言偏好)是否会调节 Copilot 的有效性?
主要发现
| Estimates | SE | t-Stat | p-Value | |
|---|---|---|---|---|
| (Intercept) | 78.01 | 67.84 | 1.15 | 0.2552 |
| Programming experience (years) | 8.23 | 4.36 | 1.90 | 0.0629 |
| Hours of programming per day | -11.70 | 4.74 | -2.47 | 0.0168 |
| Age: 25-44 | -74.55 | 33.52 | -2.22 | 0.0303 |
| Unemployed | -35.98 | 36.33 | -0.99 | 0.3263 |
| Income less than $20,000 | 0.64 | 27.47 | 0.02 | 0.9814 |
| No college | -36.57 | 32.89 | -1.11 | 0.2711 |
| Language Preference: Java | -11.77 | 33.16 | -0.35 | 0.7240 |
| Language Preference: Python | 22.90 | 42.19 | 0.54 | 0.5895 |
- 接受治疗的开发者完成任务比对照组快 55.8%(95% 置信区间:21%–89%;p = 0.0017)。
- 任务成功率在处理组高出 7 个百分点,但统计显著性不足(95% 置信区间:-11% 到 25%)。
- 异质性分析中,经验较少的开发者、每日编码时间较长的开发者,以及年龄在 25–44 岁之间的个体表现出更大的生产力提升。
- 退出调查中自评的平均生产力增益在两组均为 35%,低于观察到的 55.8% 增益。
- 对照组参与者在观看 1 分钟演示后认为 Copilot 能带来显著的速度提升,表明对 Copilot 潜力的认知。
- 无关价格(愿意支付代理变量)在处理组更高(均值 $27.25)而对照组为 $16.91,表明 Copilot 用户的感知价值更高。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。