QUICK REVIEW

[논문 리뷰] Is Stack Overflow Obsolete? An Empirical Study of the Characteristics of ChatGPT Answers to Stack Overflow Questions

Samia Kabir, David N. Udo-Imeh|arXiv (Cornell University)|2023. 08. 04.

Topic Modeling참고 문헌 66인용 수 51

한 줄 요약

본 논문은 실증적으로 ChatGPT의 Stack Overflow 질문 517건에 대한 답변을 분석하여 상당한 오정보, 장황함, 불일치를 발견했으며, 그럼에도 완전성 및 언어 스타일 측면에서 ChatGPT를 선호하는 사용자 성향이 있음을 시사한다.

ABSTRACT

Q&A platforms have been crucial for the online help-seeking behavior of programmers. However, the recent popularity of ChatGPT is altering this trend. Despite this popularity, no comprehensive study has been conducted to evaluate the characteristics of ChatGPT's answers to programming questions. To bridge the gap, we conducted the first in-depth analysis of ChatGPT answers to 517 programming questions on Stack Overflow and examined the correctness, consistency, comprehensiveness, and conciseness of ChatGPT answers. Furthermore, we conducted a large-scale linguistic analysis, as well as a user study, to understand the characteristics of ChatGPT answers from linguistic and human aspects. Our analysis shows that 52% of ChatGPT answers contain incorrect information and 77% are verbose. Nonetheless, our user study participants still preferred ChatGPT answers 35% of the time due to their comprehensiveness and well-articulated language style. However, they also overlooked the misinformation in the ChatGPT answers 39% of the time. This implies the need to counter misinformation in ChatGPT answers to programming questions and raise awareness of the risks associated with seemingly correct answers.

연구 동기 및 목표

프로그래밍 질문에 대한 ChatGPT 답변의 정확성과 품질을 Stack Overflow(SO)와 비교하여 평가한다.
ChatGPT 응답에서 나타나는 오류 유형과 불일치의 특성을 규명한다.
ChatGPT와 인간 SO 답변 간의 언어적 특징과 감정(감성) 차이를 탐구한다.
ChatGPT와 SO 중 선택할 때 프로그래머의 선호도와 휴리스틱을 이해한다.
AI 지원 프로그래밍에서 오정보를 반박하기 위한 디자인 고려사항을 제시한다.

제안 방법

인기도, 최신성, 유형에 따라 517개의 SO 질문을 표본화하고 질문 제목/본문/태그를 기반으로 프롬프트를 통해 ChatGPT 답변을 생성했다.
다중 라벨 부호화 체계를 사용하여 정확성, 일관성, 포괄성, 간결성을 위해 ChatGPT 답변을 수동으로 분석했다.
2000개의 ChatGPT 및 SO 답변에 대해 대규모 LIWC 기반 언어 분석과 RoBERTa 기반 감정 분석을 수행했다.
ChatGPT와 SO 답변 간 인식, 정확성, 선호도를 평가하기 위해 12명의 프로그래머를 대상으로 피험자 내 연구를 수행했다.
오정보를 식별하기 위한 휴리스틱과 사용자의 사고 과정을 밝히기 위해 반구조화된 인터뷰를 수행했다.
재현성을 위해 데이터 및 코드북을 공개했다.

실험 결과

연구 질문

RQ1RQ1: 정확성 및 품질 측면에서 ChatGPT 답변이 SO 답변과 어떻게 다른가?
RQ2RQ2: 각 정확성 및 품질 측면과 관련된 미세한 문제점은 무엇인가?
RQ3RQ3: SO 질문의 유형이 ChatGPT 답변의 품질에 영향을 미치는가?
RQ4RQ4: ChatGPT 답변의 언어 구조와 속성이 SO 답변과 다르게 나타나는가?
RQ5RQ5: ChatGPT 답변의 기본 감정이 SO 답변과 다른가?
RQ6RQ6: 프로그래머는 ChatGPT 답변과 인간 답변을 구분할 수 있는가?
RQ7RQ7: 프로그래머는 ChatGPT 답변의 오정보를 식별할 수 있는가?
RQ8RQ8: 프로그래머는 Stack Overflow보다 ChatGPT를 선호하는가?

주요 결과

ChatGPT 답변의 52%가 오정보를 포함한다.
ChatGPT 답변의 77%가 인간 SO 답변보다 더 장황하다.
ChatGPT 답변의 78%가 인간 답변과 어떤 형태로든 불일치를 보인다.
참가자들은 포괄성과 명확성 면에서 ChatGPT를 선호했지만 전반적으로 인간 SO 답변 쪽으로 기울었다.
참가자들은 ChatGPT 답변의 오정보를 39%의 시간에서 간과했다.
언어 분석에 따르면 ChatGPT 답변은 더 형식적이고 분석적인 언어를 사용하고 부정적 감정은 덜 나타난다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.