[논문 리뷰] An Overview on Language Models: Recent Developments and Outlook
이 논문은 언어 단위, 아키텍처, 학습 방법, 평가 및 응용 분야에 걸친 전통적(conventional) 및 사전 학습된(pre-trained) 언어 모델을 조사하고, 사전 학습 시대의 향후 방향에 대해 논의한다.
Language modeling studies the probability distributions over strings of texts. It is one of the most fundamental tasks in natural language processing (NLP). It has been widely used in text generation, speech recognition, machine translation, etc. Conventional language models (CLMs) aim to predict the probability of linguistic sequences in a causal manner, while pre-trained language models (PLMs) cover broader concepts and can be used in both causal sequential modeling and fine-tuning for downstream applications. PLMs have their own training paradigms (usually self-supervised) and serve as foundation models in modern NLP systems. This overview paper provides an introduction to both CLMs and PLMs from five aspects, i.e., linguistic units, architectures, training methods, evaluation methods, and applications. Furthermore, we discuss the relationship between CLMs and PLMs and shed light on the future directions of language modeling in the pre-trained era.
연구 동기 및 목표
- CLMs와 PLMs를 소개하고 그들의 관계와 구분을 명확히 한다.
- 언어 모델의 언어 단위, 아키텍처, 학습 방법, 평가 방법 및 응용을 조사한다.
- 대규모 및 효율적인 언어 모델을 포함한 향후 연구 방향을 논의한다.
제안 방법
- CLMs를 인과 예측을 갖춘 자기회귀 모델로 정의한다.
- 구조적(structural), 양방향(bidirectional), 순열(permutation) 등 대체 LM 계열과 토큰화 체계(characters, words/subwords, phrases, sentences)를 조사한다.
- 아키텍처(N-그램, 최대 엔트로피, 신경망, RNN, 트랜스포머) 및 그 진화를 검토한다.
- 사전 학습 목표(token 예측, MLM, 다음 문장, 텍스트 인필링 등)와 파인튜닝/프롬프트 전략(fine-tuning, adapter tuning, prompt tuning)을 개요한다.
- 내재적 perplexity, 양방향 LMs의 PLL/PPPL, GLUE/SuperGLUE와 같은 외재 벤치마크를 포함한 평가 방법과 단일 지표를 넘어서는 평가(효율성, 편향, 강건성)를 논의한다.
실험 결과
연구 질문
- RQ1CLMs와 PLMs는 훈련, 인과성, 토큰 표현에서 어떻게 차이가 있는가?
- RQ2주요 LM 아키텍처와 토큰화 선택은 무엇이며, 이것들이 성능에 어떤 영향을 미치는가?
- RQ3효과적인 다운스트림 전이를 가능하게 하는 사전 학습 목표와 파인튜닝/프롬프트 전략은 무엇인가?
- RQ4언어 모델은 내재적/외재적으로 어떻게 평가되며, 그 관계는 무엇인가?
- RQ5사전 학습 시대의 언어 모델의 미래 방향과 도전과제는 무엇인가?
주요 결과
- PLMs는 대규모 비레이블드 코퍼스로 학습되고 작업에 맞게 미세 조정된 기본 모델로서 현대 NLP를 지배한다.
- 양방향 및 순열 기반 LMs는 엄밀한 인과 예측의 대안을 제시하고 유연한 표현을 가능하게 한다.
- 부분어 토큰화(BPE, WordPiece)는 OOV 문제를 완화하고 어휘 크기와 표현력을 균형 있게 한다.
- 트랜스포머는 장거리 의존성과 병렬 학습을 가능하게 하며, 인코더, 디코더 및 인코더-디코더 변형은 다양한 작업에 적합하다.
- 사전 학습 목표, 파인튜닝 전략 및 프롬프트 방법은 다운스트림 성능과 작업 적응성에 영향을 준다.
- 전통적 지표를 넘어서 효율성, 편향, 강건성은 LM 평가에서 중요한 고려사항이다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.