QUICK REVIEW

[논문 리뷰] Public code for Model Collapse

Ilia Shumailov, Zakhar Shumaylov|arXiv (Cornell University)|2023. 05. 27.

Topic Modeling인용 수 152

한 줄 요약

본 논문은 모델이 생성한 데이터로 학습할 때 진짜 데이터 분포가 잊혀지고 꼬리 부분이 사라지며 학습된 모델이 단순한 표현으로 수렴하는 ‘모델 붕괴’라는 퇴행적 현상을 GMMs, VAEs, LLMs에 걸쳐 관찰한다.

ABSTRACT

Stable Diffusion revolutionised image creation from descriptive text. GPT-2, GPT-3(.5) and GPT-4 demonstrated astonishing performance across a variety of language tasks. ChatGPT introduced such language models to the general public. It is now clear that large language models (LLMs) are here to stay, and will bring about drastic change in the whole ecosystem of online text and images. In this paper we consider what the future might hold. What will happen to GPT-{n} once LLMs contribute much of the language found online? We find that use of model-generated content in training causes irreversible defects in the resulting models, where tails of the original content distribution disappear. We refer to this effect as Model Collapse and show that it can occur in Variational Autoencoders, Gaussian Mixture Models and LLMs. We build theoretical intuition behind the phenomenon and portray its ubiquity amongst all learned generative models. We demonstrate that it has to be taken seriously if we are to sustain the benefits of training from large-scale data scraped from the web. Indeed, the value of data collected about genuine human interactions with systems will be increasingly valuable in the presence of content generated by LLMs in data crawled from the Internet.

연구 동기 및 목표

웹에서 데이터를 반복적으로 긁어 모을 때 생성 모델 데이터가 후속 모델을 어떻게 오염시킬 수 있는지 연구의 동기를 부여한다.
다양한 모델 계열(GMMs, VAEs, LLMs)에서 모델 붕괴 현상을 특성화한다.
유한 샘플링 및 기능 근사 오차가 원래 데이터 분포로부터의 발산을 어떻게 유도하는지 정량화한다.
붕괴를 완화하기 위한 진짜 인간 생성 콘텐츠에 대한 접근의 중요성을 제시한다.

제안 방법

각 모델이 이전 모델이 생성한 데이터로 학습하는 퇴행적이고 세대 간 학습 과정으로서 모델 붕괴의 개념을 도입한다.
원래 분포와 생성-i 분포 간의 발산을 정량화하기 위해 Wasserstein 거리(W2)를 사용한다.
단순한 토이 모델들(이산 분포 및 단일 차원 가우시안)을 제시하여 위험을 분석적으로 경계하고 꼬리 부분이 세대별로 어떻게 약화하는지 보여준다.
통계적 근사 오차와 기능 근사 오차 모두 연쇄 효과에 기여함을 도출하며, 거리를 유한하게 유지하려면 데이터 수집이 초선형으로 필요하다고 제시한다.
다음으로 GMMs와 VAEs에 대한 분석을 확장하여 꼬리 부분이 세대에 걸쳐 지워지고 모드들이 얽히는 현상을 보인다.
LLMs에서의 미세 조정에 대해 논의하고 학습을 처음부터 시작하는 경우와 미세 조정하는 경우의 붕괴 조기 징후를 지적한다.

실험 결과

연구 질문

RQ1이전 모델 세대가 생성한 데이터로 학습하는 것이 원래의 데이터 분포를 세대별로 침식시키는가?
RQ2모델 붕괴가 여러 생성 모델 계열(GMMs, VAEs, LLMs)에서 관찰되는가?
RQ3붕괴를 주도하는 주요 메커니즘(통계적 근사 오차 대 기능적 근사 오차)은 무엇이며 이를 어떻게 정량화할 수 있는가?
RQ4특히 LLMs의 경우 진짜 인간 생성 데이터에 대한 접근이 모델 붕괴 완화에 어떤 역할을 하는가?

주요 결과

모델 붕괴는 생성된 데이터가 후속 학습 데이터를 오염시키고 모델이 현실을 잘못 지각하게 만드는 보편적인 퇴행적 과정이다.
원래 분포의 꼬리 부분은 초기에 사라지고 세대가 진행될수록 학습된 분포는 더 델타에 가까워지며 분산이 감소한다.
단순한 가우시안 및 이산 분포 토이 모델에서 유한 샘플링은 무작위 보행과 같은 편향을 유도하여 샘플링이 초선형으로 증가하지 않으면 실제 분포와의 거리가 커진다.
GMMs 및 VAEs에 대한 실험은 세대별 데이터가 있을 때 잠재 표현이 단일 모드가 되고 원래 모드들로부터 점진적으로 벗어난다는 것을 보여준다.
생성 데이터로 학습되거나 미세 조정된 LLM은 붕괴의 조기 징후를 보이며 인간 생성 콘텐츠 없이 웹 대규모 데이터 재사용의 위험성을 부각시킨다.
Wasserstein 거리에 기초한 이론적 한계는 유한 샘플링 하에서 세대가 지날수록 진짜 분포와의 기대 편차가 커진다고 나타내며 대량의 데이터 재생성 없이는 붕괴의 불가피성을 강화한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.