[論文レビュー] Are Large Language Models a Threat to Digital Public Goods? Evidence from Activity on Stack Overflow
この論文は、ChatGPT公開後、Stack Overflow の投稿が対照的プラットフォームに対して約16%減少し、6か月後には約25%へと上昇したことを示しており、投稿の投票には有意な変化がなく、より人気のある言語で declines が大きい。
Large language models like ChatGPT efficiently provide users with information about various topics, presenting a potential substitute for searching the web and asking people for help online. But since users interact privately with the model, these models may drastically reduce the amount of publicly available human-generated data and knowledge resources. This substitution can present a significant problem in securing training data for future models. In this work, we investigate how the release of ChatGPT changed human-generated open data on the web by analyzing the activity on Stack Overflow, the leading online Q\&A platform for computer programming. We find that relative to its Russian and Chinese counterparts, where access to ChatGPT is limited, and to similar forums for mathematics, where ChatGPT is less capable, activity on Stack Overflow significantly decreased. A difference-in-differences model estimates a 16\% decrease in weekly posts on Stack Overflow. This effect increases in magnitude over time, and is larger for posts related to the most widely used programming languages. Posts made after ChatGPT get similar voting scores than before, suggesting that ChatGPT is not merely displacing duplicate or low-quality content. These results suggest that more users are adopting large language models to answer questions and they are better substitutes for Stack Overflow for languages for which they have more training data. Using models like ChatGPT may be more efficient for solving certain programming problems, but its widespread adoption and the resulting shift away from public exchange on the web will limit the open data people and models can learn from in the future.
研究の動機と目的
- LLM 的な ChatGPT のようなモデルが、Q&A プラットフォーム上の人間が生成したオープンデータを置換するかを評価する。
- ChatGPT 公開後の Stack Overflow 投稿活動の変化を、差分の差分設計を用いて定量化する。
- 投票データを用いて、内容の質に対する影響を分析する。
- GitHub での言語人気と関連づけて、プログラミング言語間の影響の異質性を探る。
提案手法
- Stack Overflow を他の4つの対照プラットフォーム(Math Stack Exchange、Math Overflow、Russian Stack Overflow、Segmentfault)と比較する差分の差分モデルを使用する。
- IHS 変換で週次投稿をモデル化し、影響を%の変化として解釈可能にする;プラットフォーム固定効果、週固定効果、プラットフォーム特有のトレンドを含める。
- ChatGPT 介入後の効果を treat=Stack Overflow と post-ChatGPT 期間の相互作用で推定する;事前トレンドを週特異的な相互作用で検定する。
- 69 言語タグ付きトピックを横断する言語レベルの異質性を検討するイベントスタディ設計を補完として用いる。
- 投票データ(アップボート/ダウンボート)を、ChatGPT 公開前後の投稿品質の代理として分析する。
- 推定される言語レベルの効果を GitHub の言語人気と開発者給与データと関連付ける。

実験結果
リサーチクエスチョン
- RQ1ChatGPT の公開は、影響が比較的少ない対照プラットフォームに対して、Stack Overflow の投稿活動を減少させるか。
- RQ2ChatGPT は、投票活動によって測定される高品質または低品質のコンテンツを置換しているか。
- RQ3ChatGPT の影響はプログラミング言語間で異なるか、そしてそれらの差は言語の人気や市場シグナルと関連しているか。
主な発見
| 投稿数 | 質問数 | 平日投稿 |
|---|---|---|
| -0.170** | -0.112+ | -0.149* |
- ChatGPT のリリース後、Stack Overflow の投稿活動は約15.6%減少し、6か月以内には約25%程度に上昇した。
- 投票活動(アップボート/ダウンボート)は安定しており、平均的には投稿の質が低下していないことを示唆している。
- 言語間で異質な影響が見られ、より広く使用されている言語(例:Python、JavaScript)で投稿活動の減少が大きかった。
- GitHub リポジトリが多い言語は、ChatGPT 公開後の Stack Overflow 投稿への負の影響が大きくなる傾向にあった。
- 結果は代替仕様やサブサンプル(例:質問のみ、平日投稿のみ)に対しても頑健であった。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。