[논문 리뷰] The Files are in the Computer: On Copyright, Memorization, and Generative AI
이 논문은 생성형 AI에서의 암기를 정의하고, 암기된 데이터가 저작권 복제물에 해당한다고 주장하며, 암기를 추출, 재생산, 재구성으로부터 구분하여 저작권 함의를 명확히 한다.
The New York Times's copyright lawsuit against OpenAI and Microsoft alleges OpenAI's GPT models have "memorized" NYT articles. Other lawsuits make similar claims. But parties, courts, and scholars disagree on what memorization is, whether it is taking place, and what its copyright implications are. These debates are clouded by ambiguities over the nature of "memorization." We attempt to bring clarity to the conversation. We draw on the technical literature to provide a firm foundation for legal discussions, providing a precise definition of memorization: a model has "memorized" a piece of training data when (1) it is possible to reconstruct from the model (2) a near-exact copy of (3) a substantial portion of (4) that piece of training data. We distinguish memorization from "extraction" (user intentionally causes a model to generate a near-exact copy), from "regurgitation" (model generates a near-exact copy, regardless of user intentions), and from "reconstruction" (the near-exact copy can be obtained from the model by any means). Several consequences follow. (1) Not all learning is memorization. (2) Memorization occurs when a model is trained; regurgitation is a symptom not its cause. (3) A model that has memorized training data is a "copy" of that training data in the sense used by copyright. (4) A model is not like a VCR or other general-purpose copying technology; it is better at generating some types of outputs (possibly regurgitated ones) than others. (5) Memorization is not a phenomenon caused by "adversarial" users bent on extraction; it is latent in the model itself. (6) The amount of training data that a model memorizes is a consequence of choices made in training. (7) Whether or not a model that has memorized actually regurgitates depends on overall system design. In a very real sense, memorized training data is in the model--to quote Zoolander, the files are in the computer.
연구 동기 및 목표
- 정확한 기술적 정의를 사용하여 생성형 AI에서의 암기의 개념을 명확히 한다.
- 추출, 재생산, 재구성 등과 같은 관련 현상과 암기를 구분한다.
- 암기된 학습 데이터의 저작권 함의와 모델 설계가 암기에 미치는 영향을 분석한다.
- 기술적 정의를 법적 개념과 정렬시켜 법적 논의에 대한 지침을 제공한다.
제안 방법
- 암기의 정확한 정의를 제시한다: (1) 모델에서 (2) 해당 데이터의 거의 정확한 복사본을 재구성하는 것이 가능하고 (3) 그 데이터의 상당 부분의 (4) 거의 정확한 복사본을 만들어낸 경우에 모델이 학습 데이터를 암기했다고 본다.
- 명확한 기준으로 암기와 추출, 재생산, 재구성 간의 차이를 구분한다.
- 암기가 모델의 잠재적 속성이며 학습 데이터 선택과 시스템 설계에 의해 영향을 받는다고 주장한다.
- 법적 논의를 견고한 기술적 기초에 기반시키기 위해 기술 문헌을 활용한다.
실험 결과
연구 질문
- RQ1생성형 AI 모델의 학습 데이터 맥락에서 무엇이 암기에 해당하는가?
- RQ2암기, 추출, 재생산, 재구성은 개념적으로 그리고 실질적으로 어떻게 서로 다른가?
- RQ3모델이 학습 데이터를 암기하면 저작권 함의는 무엇인가?
- RQ4학습 방식과 시스템 설계가 암기된 데이터의 발생 및 가시성에 어느 정도 영향을 미치는가?
주요 결과
- 암기는 학습과 동일하지 않다; 모델은 학습의 유일한 결과가 아니더라도 데이터를 암기할 수 있다.
- 암기는 훈련된 모델의 속성으로서 발생하며, 오직 적대적 사용자 상호작용 때문만은 아니다.
- 암기된 한 조각은 논문의 프레이밍에 따라 저작권 목적으로 학습 데이터의 복사본에 해당한다.
- 재생산 경향은 암기만이 아니라 전체 시스템 설계에 달려 있다.
- 암기된 데이터의 양은 학습 데이터 선택과 학습 프로세스에 의해 영향을 받는다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.