QUICK REVIEW

[論文レビュー] How is ChatGPT's behavior changing over time?

Lingjiao Chen, Matei Zaharia|arXiv (Cornell University)|Jul 18, 2023

Artificial Intelligence in Healthcare and Education被引用数 167

ひとこと要約

この研究は、GPT-3.5 と GPT-4 の 2023 年 3 月更新と 2023 年 6 月更新を複数のタスクで比較し、時間とともに顕著な性能および指示遵守の drift を示し、LLM サービスの継続的なモニタリングの必要性を浮き彫りにしています。

ABSTRACT

GPT-3.5 and GPT-4 are the two most widely used large language model (LLM) services. However, when and how these models are updated over time is opaque. Here, we evaluate the March 2023 and June 2023 versions of GPT-3.5 and GPT-4 on several diverse tasks: 1) math problems, 2) sensitive/dangerous questions, 3) opinion surveys, 4) multi-hop knowledge-intensive questions, 5) generating code, 6) US Medical License tests, and 7) visual reasoning. We find that the performance and behavior of both GPT-3.5 and GPT-4 can vary greatly over time. For example, GPT-4 (March 2023) was reasonable at identifying prime vs. composite numbers (84% accuracy) but GPT-4 (June 2023) was poor on these same questions (51% accuracy). This is partly explained by a drop in GPT-4's amenity to follow chain-of-thought prompting. Interestingly, GPT-3.5 was much better in June than in March in this task. GPT-4 became less willing to answer sensitive questions and opinion survey questions in June than in March. GPT-4 performed better at multi-hop questions in June than in March, while GPT-3.5's performance dropped on this task. Both GPT-4 and GPT-3.5 had more formatting mistakes in code generation in June than in March. We provide evidence that GPT-4's ability to follow user instructions has decreased over time, which is one common factor behind the many behavior drifts. Overall, our findings show that the behavior of the "same" LLM service can change substantially in a relatively short amount of time, highlighting the need for continuous monitoring of LLMs.

研究の動機と目的

モデル更新の不透明さに動機づけられ、2 つの主要な LLM サービス（GPT-3.5 と GPT-4）が時間とともにどのように変化するかを評価する。
多様なタスクにおける性能と挙動の drift を評価し、潜在的なトレードオフと安定性を理解する。
LLMs のワークフローへの継続的なモニタリングと堅牢な統合を促す根拠とリソースを提供する。

提案手法

2023 年 3 月版と 2023 年 6 月版の GPT-3.5 および GPT-4 を、デフォルトのシステムプロンプトと低温度（0.1）でのプロンプトを用いて比較する。
数学問題（素数対合成、ハッピー数）、機密/危険な質問、OpinionQA 調査、LangChain HotpotQA マルチホップ QA、コード生成、USMLE 医学試験、視覚推論の 8 タスクを評価する。
ドリフトを定量化するために、正確性、応答率、厳密一致、実行性というタスク固有の指標と、一般的な指標である verbosity（冗長性）と mismatch（不一致）の 2 つを用いる。
チェイン・オブ・ソウト（CoT）指示の有無をテストして、CoT 指示への依存を分析する。
再現性を可能にするよう、プロンプトとレスポンスを厳選して公開する；分析コードをオープンソース化する。

実験結果

リサーチクエスチョン

RQ1GPT-4 と GPT-3.5 は 2023 年 3 月と 2023 年 6 月の間で、多様なタスクにおいて可測な性能 drift を示すのか。
RQ2ユーザー指示に従う能力（例：チェイン・オブ・ソウト・プロンプト）は時間とともにどのように drift し、タスク性能とどう関連するのか。
RQ3モデルの drift に伴い、安全性関連および意見生成行動にはどのようなパターンが現れるのか。
RQ4コードのフォーマット、マルチホップ推論、プロンプティングの安定性は、時間とともに下流のパイプラインの脆弱性にどの程度寄与するのか。
RQ5これらの drift が、実世界のシステムやワークフローに LLM を展開する際にどのような影響を及ぼすのか。

主な発見

GPT-4 と GPT-3.5 の双方が、2023 年 3 月と 6 月の間で、いくつかのタスクにおいて性能と挙動の大幅な drift を示す。
GPT-4 の素数/合成の正確性は 84% から 51% に低下し、GPT-3.5 は素数テストで 49.6% から 76.2% に改善した。チェイン・オブ・ソウトの使用にも変化が生じた。
GPT-4 は 6 月には機密性の高い質問や意見調査の回答意欲が減少し、3 月より低下した一方、GPT-3.5 は混在した変化を示した。
GPT-4 は 6 月の方がこのタスクのいくつかのマルチホップ問で改善したのに対し、GPT-3.5 はこのタスクで低下した。
コード生成の出力は、フォーマット変更の影響で 6 月にはより直接的な実行性が低下し、非コード文本の増加が顕著だった。
GPT-4 のユーザー指示の遵守能力は全体的に時間とともに低下し、広範な挙動 drift に寄与した。
脱獄攻撃に対する安全防御と拒否の説明を長くすることにおける著しい drift があり、GPT-4 の方が GPT-3.5 より安全性の変化が強かった。
タスクを横断して、出力長と内容の大幅な変化（冗長性、不一致）が、正確性の drift とともに見られ、モデル挙動の不安定性を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。