Skip to main content
QUICK REVIEW

[论文解读] Is Stack Overflow Obsolete? An Empirical Study of the Characteristics of ChatGPT Answers to Stack Overflow Questions

Samia Kabir, David N. Udo-Imeh|arXiv (Cornell University)|Aug 4, 2023
Topic Modeling参考文献 66被引用 51
一句话总结

本论文对 517 个 Stack Overflow 问题的 ChatGPT 答案进行实证分析,发现存在大量错误信息、冗长以及不一致性,同时也指出用户在可读性、语言风格等方面对 ChatGPT 的一定偏好。

ABSTRACT

Q&A platforms have been crucial for the online help-seeking behavior of programmers. However, the recent popularity of ChatGPT is altering this trend. Despite this popularity, no comprehensive study has been conducted to evaluate the characteristics of ChatGPT's answers to programming questions. To bridge the gap, we conducted the first in-depth analysis of ChatGPT answers to 517 programming questions on Stack Overflow and examined the correctness, consistency, comprehensiveness, and conciseness of ChatGPT answers. Furthermore, we conducted a large-scale linguistic analysis, as well as a user study, to understand the characteristics of ChatGPT answers from linguistic and human aspects. Our analysis shows that 52% of ChatGPT answers contain incorrect information and 77% are verbose. Nonetheless, our user study participants still preferred ChatGPT answers 35% of the time due to their comprehensiveness and well-articulated language style. However, they also overlooked the misinformation in the ChatGPT answers 39% of the time. This implies the need to counter misinformation in ChatGPT answers to programming questions and raise awareness of the risks associated with seemingly correct answers.

研究动机与目标

  • 评估 ChatGPT 对编程问题的回答相对于 Stack Overflow(SO)的正确性与质量。
  • 描述 ChatGPT 回应中的错误类型与不一致性。
  • 探究 ChatGPT 与人类 SO 答案在语言风格与情感方面的差异。
  • 理解程序员在选择 ChatGPT 与 SO 时的偏好与启发式判断。
  • 为 AI 支持的编程中的错误信息对策提供设计方面的参考。

提出的方法

  • 对受欢迎程度、时效性和类型进行抽样,选取 517 个 SO 问题,并基于问题标题/正文/标签的提示生成 ChatGPT 答案。
  • 用多标签编码方案手动分析 ChatGPT 答案的正确性、一致性、全面性与简洁性。
  • 对 2000 个 ChatGPT 与 SO 答案进行大规模的 LIWC 基础语言分析和 RoBERTa 基于情感分析。
  • 开展了包含 12 名程序员的被试内用户研究,以评估对 ChatGPT 与 SO 答案的感知、正确性和偏好。
  • 进行半结构化访谈,以揭示识别错误信息的启发式方法和用户推理。
  • 公开发布数据与代码手册以便复现。

实验结果

研究问题

  • RQ1RQ1:在正确性和质量方面,ChatGPT 答案与 SO 答案有何不同?
  • RQ2RQ2:与每个正确性和质量方面相关的细粒度问题有哪些?
  • RQ3RQ3:SO 问题的类型是否会影响 ChatGPT 答案的质量?
  • RQ4RQ4:ChatGPT 答案的语言结构与属性是否与 SO 答案不同?
  • RQ5RQ5:ChatGPT 答案的潜在情感是否与 SO 答案不同?
  • RQ6RQ6:程序员是否能够区分 ChatGPT 答案与人类答案?
  • RQ7RQ7:程序员是否能够识别 ChatGPT 答案中的错误信息?
  • RQ8RQ8:程序员是否更偏好 ChatGPT 而非 Stack Overflow?

主要发现

  • 52% 的 ChatGPT 答案包含错误信息。
  • 77% 的 ChatGPT 答案比人类的 SO 答案更冗长。
  • 78% 的 ChatGPT 答案与人类答案存在某种形式的不一致。
  • 参与者偏好 ChatGPT 的全面性与表达能力,但整体偏向人类 SO 答案。
  • 参与者在 39% 的情况下忽视了 ChatGPT 答案中的错误信息。
  • 根据语言分析,ChatGPT 答案表现出更正式、更分析性的语言,并且负性情感较少。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。