[논문 리뷰] ChatGPT as Research Scientist: Probing GPT's Capabilities as a Research Librarian, Research Ethicist, Data Generator and Data Predictor
이 논문은 GPT-3.5와 GPT-4를 네 가지 과학적 역할—도서관 사서(librarian), 윤리학자(ethicist), 데이터 생성자(data generator), 데이터 예측자(data predictor)—에 걸쳐 평가하고, 일부 영역에서 성능이 개선되었음을 발견했지만(예: 현혹 현상 감소, 윤리 탐지) 새 데이터를 예측하는 능력은 제한적이다.
How good a research scientist is ChatGPT? We systematically probed the capabilities of GPT-3.5 and GPT-4 across four central components of the scientific process: as a Research Librarian, Research Ethicist, Data Generator, and Novel Data Predictor, using psychological science as a testing field. In Study 1 (Research Librarian), unlike human researchers, GPT-3.5 and GPT-4 hallucinated, authoritatively generating fictional references 36.0% and 5.4% of the time, respectively, although GPT-4 exhibited an evolving capacity to acknowledge its fictions. In Study 2 (Research Ethicist), GPT-4 (though not GPT-3.5) proved capable of detecting violations like p-hacking in fictional research protocols, correcting 88.6% of blatantly presented issues, and 72.6% of subtly presented issues. In Study 3 (Data Generator), both models consistently replicated patterns of cultural bias previously discovered in large language corpora, indicating that ChatGPT can simulate known results, an antecedent to usefulness for both data generation and skills like hypothesis generation. Contrastingly, in Study 4 (Novel Data Predictor), neither model was successful at predicting new results absent in their training data, and neither appeared to leverage substantially new information when predicting more versus less novel outcomes. Together, these results suggest that GPT is a flawed but rapidly improving librarian, a decent research ethicist already, capable of data generation in simple domains with known characteristics but poor at predicting novel patterns of empirical data to aid future experimentation.
연구 동기 및 목표
- GPT-3.5 및 GPT-4를 연구 도서관사로 평가하기 위해 서지 품질과 환각률을 테스트한다.
- GPT-3.5 및 GPT-4를 연구 윤리학자로 평가하기 위해 잘못된 연구 관행의 탐지 및 수정 여부를 측정한다.
- GPT-3.5 및 GPT-4를 데이터 생성자로 평가하기 위해 바이어스 재현 및 알려진 결과를 시뮬레이션하는 능력을 살핀다.
- GPT-3.5 및 GPT-4를 새로운 데이터 예측자로 평가하기 위해 보지 못한 실제 세계 데이터 패턴에 대한 예측을 테스트한다.
제안 방법
- 연구 1(도서관): 1,000개의 참고문헌을 생성(주제당 20개, 25개 심리학 주제)하고 정확성, 완전성, 관련성, 인용 수를 평가한다.
- 연구 2(윤리학자): 결함이 있는 프로토콜의 18개의 생생한 사례(노골적인 것과 미묘한 것)를 제시하고 216회의 상호작용에서 윤리적/반사적 품질에 대한 GPT 응답을 평가한다.
- 연구 3(데이터 생성자): GPT가 단어 임베딩과 같은 연합을 추정하고 WEAT에서 영감을 받은 네 도메인에서 알려진 편향 패턴을 재현하는 능력을 평가한다.
- 연구 4(새로운 데이터 예측자): Project Implicit 데이터를 사용해 국가 차원의 태도(암묵적 대 명시적)를 예측하도록 GPT에 과제를 주어 새로움과 예측 타당성을 평가한다.
- 양적 분석에는 로지스틱 회귀, Cronbach의 알파 신뢰도, 실세계 데이터와의 상관 분석이 포함된다.
실험 결과
연구 질문
- RQ1GPT가 환각 없이 포괄적이고 정확한 참고문헌을 신뢰성 있게 컴파일할 수 있는가?
- RQ2GPT가 연구 프로토콜의 윤리적 문제 및 p-해킹과 같은 관행을 탐지하고 다루는 데 얼마나 잘 작동하는가?
- RQ3GPT가 알려진 데이터 패턴(편향, 고정관념)을 시뮬레이션하고 타당한 데이터를 생성할 수 있는 정도는 어느 정도인가?
- RQ4GPT-3.5와 GPT-4는 훈련 데이터 밖의 새롭고 경험적으로 관찰되는 패턴을 예측할 수 있는가, 그리고 두 모델 간의 성능 차이는 무엇인가?
- RQ5일반 과학 보조 도구로서의 GPT의 유용성의 한계와 발전 방향은 무엇인가?
주요 결과
- GPT-3.5는 참조의 36.0%를 환각했고; GPT-4는 참조의 5.4%를 환각했으며, 허구에 대한 솔직함이 개선되어 가상 참조에 대해 84.3%의 시점에서 ‘허구를 인정하는’ 비율이 GPT-3.5의 12.2%보다 높다.
- 윤리 사례에 대한 응답에서 GPT-4가 GPT-3.5보다 우수했고, 명백한 사례에서 평균 8.86/10, 미묘한 사례에서 평균 7.26/10으로 나타났으며 각각 GPT-3.5는 5.39/10, 4.05/10이었다.
- GPT는 데이터 생성에서 잘 알려진 편향 패턴(예: WEAT 유사 결과)을 안정적으로 재현하고 기존의 결과를 시뮬레이션할 수 있어 파일럿 데이터 생성 및 가설 생성을 위한 도구로서의 사용을 뒷받침한다.
- 새로운 데이터 예측자 임무에서 GPT-3.5와 GPT-4는 매우 새롭고 관찰된 데이터 패턴을 예측하는 능력이 제한적이었고, 실세계 결과와의 상관은 다양하며 새로운 암묵적 태도에 대해서는 감소했다.
- 데이터 윤리 주제로 프롬프트를 제시하면 응답 품질이 향상되며, 윤리적으로 기초된 프롬프트가 비윤리 프롬프트보다 더 높은 품질의 출력을 낸다.
- 전반적으로 GPT는 여전히 결함이 있는 다소 개선 중인 도서관사이고, 합리적인 윤리 도구이며, 단순 도메인 데이터 생성에는 능력이 있지만 새로운 경험적 패턴 예측에는 미흡하다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.