Skip to main content
QUICK REVIEW

[논문 리뷰] History, Development, and Principles of Large Language Models-An Introductory Survey

Zichong Wang, Zhibo Chu|arXiv (Cornell University)|2024. 02. 10.
Topic Modeling인용 수 9
한 줄 요약

이 논문은 대형 언어 모델(LLMs)의 역사, 개발, 핵심 원리, 응용, 한계 및 미래 방향에 대한 초보자 친화적 개요를 제공합니다.

ABSTRACT

Language models serve as a cornerstone in natural language processing (NLP), utilizing mathematical methods to generalize language laws and knowledge for prediction and generation. Over extensive research spanning decades, language modeling has progressed from initial statistical language models (SLMs) to the contemporary landscape of large language models (LLMs). Notably, the swift evolution of LLMs has reached the ability to process, understand, and generate human-level text. Nevertheless, despite the significant advantages that LLMs offer in improving both work and personal lives, the limited understanding among general practitioners about the background and principles of these models hampers their full potential. Notably, most LLM reviews focus on specific aspects and utilize specialized language, posing a challenge for practitioners lacking relevant background knowledge. In light of this, this survey aims to present a comprehensible overview of LLMs to assist a broader audience. It strives to facilitate a comprehensive understanding by exploring the historical background of language models and tracing their evolution over time. The survey further investigates the factors influencing the development of LLMs, emphasizing key contributions. Additionally, it concentrates on elucidating the underlying principles of LLMs, equipping audiences with essential theoretical knowledge. The survey also highlights the limitations of existing work and points out promising future directions.

연구 동기 및 목표

  • SLMs에서 LLMs로의 역사적 진행과 LLM 성장의 주요 요인을 식별한다.
  • 접근 가능한 예로 GPT를 사용하여 LLM을 뒷받침하는 핵심 원리와 아키텍처를 명확히 한다.
  • 약물 발견, 금융, 의학, 법률 등 다양한 영역에서 LLM의 응용을 조사한다.
  • 현재의 한계를 비판적으로 논의하고 향후 연구를 위한 유망한 방향을 제시한다.

제안 방법

  • 언어 모델 범주(SLMs, NLMs, PLMs, LLMs)와 그 진화에 대한 역사적 분석.
  • GPT 계열 및 트랜스포머 기반 설명을 활용하여 원리를 설명한다.
  • 데이터 다양성, 계산 자원, 알고리즘 혁신을 LLM 발전의 핵심 동인으로 논의한다.
  • 다양한 도메인에서의 LLM 응용을 예시와 함께 설명한다.
  • 공정성 및 편향성과 같은 한계와 향후 방향을 제시한다.

실험 결과

연구 질문

  • RQ1대형 언어 모델의 역사적 진행과 현재 상태는 무엇인가?
  • RQ2데이터, 계산, 알고리즘 등의 어떤 요인이 LLM의 급속한 발전을 촉진했는가?
  • RQ3LLMs를 지탱하는 근본 원리와 아키텍처는 무엇인가?
  • RQ4의료, 금융, 법률 등과 같은 도메인에서 LLM의 실용적 응용은 무엇인가?
  • RQ5현재 LLM의 주요 단점은 무엇이며 향후 연구의 잠재적 방향은 무엇인가?

주요 결과

  • LLMs는 통계적 언어 모델에서 신경망 기반 언어 모델로의 진행을 바탕으로 매우 크고 고능력한 모델로 귀결된다.
  • 트랜스포머 아키텍처와 셀프 어텐션, 대규모 사전 학습이 GPT-3 및 GPT-4와 같은 현대 LLM의 기반이다.
  • GPT-3은 맥락 활용 및 대규모 매개변수 수(175 billion)와 광범위한 학습 데이터를 보여주며 규모 효과를 설명한다.
  • 데이터 다양성, 계산 자원, 알고리즘 혁신이 LLM 능력과 성장의 중심 동인이다.
  • LLMs는 약물 발견, 금융, 의학, 법률 분야에서 진전을 가능하게 하지만 공정성과 편향 문제를 제기하며 이를 완화해야 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.