[논문 리뷰] A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need?
이 논문은 생성형 AI(AIGC)의 기초, 기술, 과제, 응용을 조사하고, GPT-시대 모델(GPT-4 및 그 이후 버전)이 텍스트, 이미지, 비디오 등 다양한 콘텐츠 생성을 가능하게 하는 방법을 검토한다.
As ChatGPT goes viral, generative AI (AIGC, a.k.a AI-generated content) has made headlines everywhere because of its ability to analyze and create text, images, and beyond. With such overwhelming media coverage, it is almost impossible for us to miss the opportunity to glimpse AIGC from a certain angle. In the era of AI transitioning from pure analysis to creation, it is worth noting that ChatGPT, with its most recent language model GPT-4, is just a tool out of numerous AIGC tasks. Impressed by the capability of the ChatGPT, many people are wondering about its limits: can GPT-5 (or other future GPT variants) help ChatGPT unify all AIGC tasks for diversified content creation? Toward answering this question, a comprehensive review of existing AIGC tasks is needed. As such, our work comes to fill this gap promptly by offering a first look at AIGC, ranging from its techniques to applications. Modern generative AI relies on various technical foundations, ranging from model architecture and self-supervised pretraining to generative modeling methods (like GAN and diffusion models). After introducing the fundamental techniques, this work focuses on the technological development of various AIGC tasks based on their output type, including text, images, videos, 3D content, etc., which depicts the full potential of ChatGPT's future. Moreover, we summarize their significant applications in some mainstream industries, such as education and creativity content. Finally, we discuss the challenges currently faced and present an outlook on how generative AI might evolve in the near future.
연구 동기 및 목표
- 백본 아키텍처와 자기지도 사전학습을 포함하여 AIGC를 뒷받침하는 기본 기술을 설명한다.
- 출력 유형(텍스트, 이미지, 비디오, 3D 등)별로 AIGC 작업과 기술적 진보를 검토한다.
- 교육, 미디어, 광고, 창의적 분야에서의 AIGC 산업 응용을 요약한다.
- 생성형 AI의 도전과제, 윤리적 고려사항 및 향후 전망에 대해 논의한다.
제안 방법
- AIGC 기술을 두 가지 범주로 분류한다: 생성 기법(GANs, 확산 모델)과 일반 기법(Transformers, 자기지도 사전학습).
- 백본 아키텍처(RNNs, Transformers, CNNs, ViT, Swin, DeiT 등)와 이들의 AIGC에서의 역할을 설명한다.
- 언어 및 시각 분야의 자기지도 사전학습 방법(BERT, GPT, MAE, CLIP)과 교차 모달 사전학습(CLIP, ALIGN)을 요약한다.
- 가능도 기반(Likelihood-based) 대 에너지 기반(Energy-based) 생성 모델을 설명하고 GANs/확산 모델을 에너지 기반 관점과 연결한다.
실험 결과
연구 질문
- RQ1현대의 AIGC 작업을 가능하게 하는 기본 기술은 무엇인가?
- RQ2기본 아키텍처와 사전학습 전략이 다양한 모달리티의 AIGC 출력에 어떻게 기여하는가?
- RQ3AIGC 작업과 응용의 현황은 어떠하며, 향후 GPT 변종이 이에 어떤 영향을 미칠 수 있는가?
- RQ4광범위한 AIGC 배치에서 어떤 도전과 사회적 함의가 발생하는가?
주요 결과
- AIGC는 두 가지 기술 계층에 의존한다: 생성 모델(GANs, 확산)과 일반 기법(Transformers, 자기지도 학습).
- Transformers와 ViTs는 NLP와 CV의 핵심 백본이 되었으며, 확장 가능한 AIGC 모델을 가능하게 한다.
- 자기지도 사전학습과 교차 모달 학습(예: CLIP, ALIGN)은 텍스트 및 이미지 작업 전반에 걸쳐 대규모 AIGC 능력을 좌우한다.
- AIGC 작업은 텍스트 생성, 이미지 생성 및 그 이상(비디오, 3D, 음성, 그래프)을 포괄하며, 텍스트-이미지 및 다중 모달 생성에서 빠른 진전을 보이고 있다.
- AIGC 도구의 부상은 대형 모델(GPT-4 시대의 시스템 등)을 가능하게 하는 데이터 접근성과 컴퓨트 리소스와 밀접하게 연결되어 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.