QUICK REVIEW

[논문 리뷰] How is ChatGPT's behavior changing over time?

Lingjiao Chen, Matei Zaharia|arXiv (Cornell University)|2023. 07. 18.

Artificial Intelligence in Healthcare and Education인용 수 167

한 줄 요약

본 연구는 March 2023 vs. June 2023 업데이트가 GPT-3.5와 GPT-4에 걸쳐 다양한 작업에서 어떤 성능 및 지시 이행의 변화(드리프트)가 시간이 지남에 따라 크게 나타남을 분석하고, LLM 서비스의 지속적 모니터링 필요성을 강조한다.

ABSTRACT

GPT-3.5 and GPT-4 are the two most widely used large language model (LLM) services. However, when and how these models are updated over time is opaque. Here, we evaluate the March 2023 and June 2023 versions of GPT-3.5 and GPT-4 on several diverse tasks: 1) math problems, 2) sensitive/dangerous questions, 3) opinion surveys, 4) multi-hop knowledge-intensive questions, 5) generating code, 6) US Medical License tests, and 7) visual reasoning. We find that the performance and behavior of both GPT-3.5 and GPT-4 can vary greatly over time. For example, GPT-4 (March 2023) was reasonable at identifying prime vs. composite numbers (84% accuracy) but GPT-4 (June 2023) was poor on these same questions (51% accuracy). This is partly explained by a drop in GPT-4's amenity to follow chain-of-thought prompting. Interestingly, GPT-3.5 was much better in June than in March in this task. GPT-4 became less willing to answer sensitive questions and opinion survey questions in June than in March. GPT-4 performed better at multi-hop questions in June than in March, while GPT-3.5's performance dropped on this task. Both GPT-4 and GPT-3.5 had more formatting mistakes in code generation in June than in March. We provide evidence that GPT-4's ability to follow user instructions has decreased over time, which is one common factor behind the many behavior drifts. Overall, our findings show that the behavior of the "same" LLM service can change substantially in a relatively short amount of time, highlighting the need for continuous monitoring of LLMs.

연구 동기 및 목표

모델 업데이트의 불투명성에 의해 동기를 부여받아 두 가지 주요 LLM 서비스(GPT-3.5와 GPT-4)가 시간에 따라 어떻게 변화하는지 평가한다.
다양한 작업에서 성능 및 동작 드리프트를 평가하여 잠재적 트레이드오프와 안정성을 이해한다.
LLM의 워크플로우 통합에 대한 지속적 모니터링과 견고한 통합을 촉구하는 증거와 자료를 제공한다.

제안 방법

2023년 3월 vs. 2023년 6월 버전의 GPT-3.5 및 GPT-4를 기본 시스템 프롬프트와 낮은 온도(0.1)로 설정한 프롬프트를 사용하여 비교한다.
수학 문제(소수/합성수, 해피 넘버), 민감/위험한 질문, OpinionQA 설문, LangChain HotpotQA 다중-호 QA, 코드 생성, USMLE 의학 시험, 시각 추론의 여덟 가지 과제를 평가한다.
드리프트를 정량화하기 위해 정확도, 응답률, 정확일치, 실행 가능성 등의 과제별 지표와 함께 장황성(verbosity)과 불일치(mismatch)라는 두 가지 일반 지표를 사용한다.
CoT 지시사항이 있는 경우와 없는 경우를 테스트하여 사고 체인(CoT)프롬프트 의존성을 분석한다.
재현 가능성을 위해 프롬프트와 응답을 큐레이션하고 공개 소스 분석 코드를 제공한다.

실험 결과

연구 질문

RQ1GPT-4와 GPT-3.5가 2023년 3월과 2023년 6월 사이에 다양한 작업에서 측정 가능한 성능 드리프트를 보이는가?
RQ2사용자 지시를 따르는 능력(예: 사고 체인 프롬프트)이 시간이 지남에 따라 어떻게 드리프트하며, 이것이 작업 성능과 어떤 관련이 있는가?
RQ3모델이 시간이 지남에 따라 안전 관련 및 의견 생성 행동에서 어떤 패턴이 나타나는가?
RQ4코드 형식화, 다중-호치 reasoning, 프롬프트 안정성이 시간이 지남에 따라 다운스트림 파이프라인의 취약성에 얼마나 기여하는가?
RQ5이러한 드리프트가 실제 시스템 및 워크플로우에 LLM을 배치하는 데 어떤 시사점을 제공하는가?

주요 결과

GPT-4와 GPT-3.5 모두 2023년 3월에서 6월 사이에 여러 과제에서 상당한 성능 및 행동 드리프트를 보였다.
GPT-4의 소수/합성수 정확도가 84%에서 51%로 떨어진 반면, GPT-3.5는 소수 테스트에서 49.6%에서 76.2%로 개선되었고 사고 체인 사용에 변화가 있었다.
GPT-4는 3월보다 6월에 민감한 질문 및 의견 설문에 답하는 의지가 감소했고, GPT-3.5는 혼합된 변화를 보였다.
GPT-4는 6월에 일부 다중-호퀘 질문에서 향상된 반면 GPT-3.5는 이 작업에서 하락했다.
코드 생성 출력은 형식 변경으로 인해 두 모델 모두 6월에 더 직접적으로 실행 가능하지 않게 되었고 비코드 텍스트의 비율이 크게 증가했다.
GPT-4의 사용자의 지시를 따르는 능력은 일반적으로 시간이 지남에 따라 감소했고, 이는 더 넓은 행동 드리프트에 기여했다.
탈옥(jailbreaking) 공격에 대한 안전 방어 및 거절에 대한 자세한 합리화를 생성하는 데도 뚜렷한 드리프트가 있으며, GPT-4가 GPT-3.5보다 더 강한 안전 변화가 나타났다.
작업 전반에 걸쳐 출력 길이와 내용(장황성, 불일치)의 상당한 변화가 정확도 드리프트를 동반해 모델 행동의 불안정을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.