Skip to main content
QUICK REVIEW

[논문 리뷰] ChatGPT is not all you need. A State of the Art Review of large Generative AI models

Roberto Gozalo-Brizuela, Eduardo C. Garrido‐Merchán|arXiv (Cornell University)|2023. 01. 11.
Artificial Intelligence in Healthcare and Education인용 수 243
한 줄 요약

다중 모달리티에 걸친 대형 생성형 AI 모델에 대한 분류 체계를 제시하고 분석하며, 주요 모델, 개발자, 응용 분야 및 한계를 개요하는 최신의 포괄적 상태-오브-더-아트 리뷰이다.

ABSTRACT

During the last two years there has been a plethora of large generative models such as ChatGPT or Stable Diffusion that have been published. Concretely, these models are able to perform tasks such as being a general question and answering system or automatically creating artistic images that are revolutionizing several sectors. Consequently, the implications that these generative models have in the industry and society are enormous, as several job positions may be transformed. For example, Generative AI is capable of transforming effectively and creatively texts to images, like the DALLE-2 model; text to 3D images, like the Dreamfusion model; images to text, like the Flamingo model; texts to video, like the Phenaki model; texts to audio, like the AudioLM model; texts to other texts, like ChatGPT; texts to code, like the Codex model; texts to scientific texts, like the Galactica model or even create algorithms like AlphaTensor. This work consists on an attempt to describe in a concise way the main models are sectors that are affected by generative AI and to provide a taxonomy of the main generative models published recently.

연구 동기 및 목표

  • 주요 생성형 AI 모델의 간결한 분류 체계를 제공한다
  • 각 범주의 모델과 그 응용을 분석한다
  • 산업 및 사회에 대한 부문별 시사점을 요약한다
  • 이 모델들과 관련된 한계, 도전과 윤리적 고려를 논의한다
  • 향후 연구 방향과 과제를 제시한다

제안 방법

  • 입출력 매핑에 따라 모델을 아홉 가지 범주로 조직화한다
  • 각 범주에서 대표 모델을 설명한다(예: 텍스트-이미지, 텍스트-비디오, 텍스트-오디오, 텍스트-텍스트)
  • 산업별 배포 맥락과 개발자 생태계를 비교한다
  • 데이터, 계산, 편향, 윤리와 같은 비기술적 측면을 강조한다
  • 기술적 아키텍처의 심층 분석 대신 응용과 콘텐츠 생성에 초점을 맞춘다
  • 결론 및 향후 연구 섹션을 제공한다

실험 결과

연구 질문

  • RQ1주요 생성형 AI 모델의 지배적 범주와 그 입력-출력 매핑은 무엇인가?
  • RQ2각 범주를 대표하는 모델은 무엇이며 누가 개발했나?
  • RQ3이 모델의 핵심 응용 및 산업/사회적 시사점은 무엇인가?
  • RQ4이 모델과 관련된 주요 한계, 위험 및 윤리적 문제는 무엇인가?

주요 결과

  • 논문은 입력-출력 매핑에 따라 9가지 범주로 구성된 생성형 AI 모델의 분류 체계를 제안한다.
  • 텍스트-이미지, 텍스트-3D, 이미지-텍스트, 텍스트-비디오, 텍스트-오디오, 텍스트-텍스트, 텍스트-코드, 텍스트-과학, 기타 모델을 포함한 다양한 모달리티를 다룬다.
  • 대부분의 모델은 2022년에 출시되었으며 예외로는(예: LaMDA 2021, Muse 2023) 있다.
  • 모델 배포를 주도하는 조직이 6곳에 달해 막대한 컴퓨트와 특화된 팀의 필요성을 반영한다.
  • 대표 모델로 DALL·E 2, Imagen, Stable Diffusion, Muse, Flamingo, VisualGPT, Dreamfusion, Magic3D, Phenaki, Soundify, AudioLM, Jukebox, Whisper, Codex, Alphacode, Galactica, Minerva 등이 있으며 예술에서 과학에 이르는 광범위한 응용 영역을 보여준다.
  • 데이터 편향, 방대한 데이터 및 계산 요구, 실제 이해의 부재, 심화가 필요하다는 윤리적 문제(예: 텍스트-비디오의 딥페이크)와 같은 중요한 한계들을 논의한다

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.