QUICK REVIEW

[論文レビュー] Speak, Memory: An Archaeology of Books Known to ChatGPT/GPT-4

Kent K. Chang, Mackenzie Hạnh Cramer|arXiv (Cornell University)|Apr 28, 2023

Topic Modeling被引用数 17

ひとこと要約

本論文は name cloze membership inference を用いて ChatGPT および GPT-4 が記憶した書籍を検出し、記憶化がウェブ頻度と下流タスクの偏りと関連することを示す；文化分析の妥当性を確保するには訓練データがわかっているオープンモデルを推奨する。

ABSTRACT

In this work, we carry out a data archaeology to infer books that are known to ChatGPT and GPT-4 using a name cloze membership inference query. We find that OpenAI models have memorized a wide collection of copyrighted materials, and that the degree of memorization is tied to the frequency with which passages of those books appear on the web. The ability of these models to memorize an unknown set of books complicates assessments of measurement validity for cultural analytics by contaminating test data; we show that models perform much better on memorized books than on non-memorized books for downstream tasks. We argue that this supports a case for open models whose training data is known.

研究の動機と目的

大規模言語モデルがどの書籍を記憶するのか、そしてなぜ記憶化が文化分析にとって重要なのかを動機づける研究。
GPT-4 および ChatGPT の出力から記憶された書籍を推定するデータセットとタスク（name cloze）を開発する。
記憶化がウェブでの流布度とどのように相関するか、そしてそれが下流タスクにどのように影響するかを定量化する。
モデル支援型文学分析の妥当性と再現性を向上させるために、オープンな訓練データを提唱する。

提案手法

難易度の高い name cloze タスクを定式化する：他の固有名詞を含まない40–60トークンの passages から単一トークンの固有名を予測する。
5つのソース（LitBank、Pulitzer nominees、bestsellers、Black authors、Global Anglophone、genre）から571 の fiction works の評価データを収集する。
BookNLP を用いて書籍ごとに100 passages を抽出し、固定プロンプトを適用して XML 形式の単一名を誘導する。
このプロンプトを ChatGPT (gpt-3.5-turbo) および GPT-4 に通し、書籍ごとの name cloze 精度を記録する。
BERT とのベースライン比較を行い、誤差分析およびウェブ頻度 (Google/Bing/C4/Pile) との相関を通じて記憶化を分析する。
passages における初出年と語りの時間を予測して下流影響を評価し、 memorized が多い書籍と少ない書籍を比較する。

実験結果

リサーチクエスチョン

RQ1name cloze タスクで測定された OpenAI モデル（GPT-4 および ChatGPT）によってどの書籍が記憶されているか？
RQ2記憶化は書籍カテゴリーやウェブ上の人気度によってどのように異なるか？
RQ3書籍の記憶化は作品の時期推定や語られた時間の推定などの下流の文学分析タスクに影響を与えるか？
RQ4データ汚染、評価の妥当性、オープンな訓練データの必要性という観点での含意は何か？

主な発見

GPT-4 と ChatGPT は著作権で保護された広範な書籍を記憶しており、SF/ファンタジーおよびベストセラーほど記憶化が強い。
記憶化は Google、Bing、C4、Pile のウェブ上の出現と相関し、特に1928年以前のパブリックドメイン文本で顕著。
BERT は Fifty Shades of Grey を除いてほぼ記憶化ゼロを示し、訓練データの影響はモデルとコーパスによって異なることを示唆。
記憶化は初出年の予測や語られた時間の推定といった下流タスクで記憶された書籍に対してより良い性能をもたらし、テストデータ汚染のリスクを示唆。
記憶化の格差は文化分析の結果に偏りをもたらすことを示唆し、訓練データが分かっているオープンモデルの必要性を強化する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。